ما يفعله QAT فعلاً
يقلل التكميم من حجم النموذج عن طريق خفض دقة الأوزان. التكميم الحساس للتدريب (QAT) يحاكي التكميم أثناء التدريب، مما يسمح للنموذج بالتعويض عن فقدان الدقة. فريق AI في Google يؤكد أن نتائج QAT تقدم جودة أعلى بكثير من خطوط الأساس القياسية للتكميم بعد التدريب (PTQ). لم تنشر Google درجات قياس QAT لنموذج Gemma 4 في الإعلان. من أجل السياق، خفض QAT في Gemma 3 من انخفاض دقة Q4_0 بنسبة 54% باستخدام تقييم llama.cpp، ونذكر ذلك فقط كسابقة من جيل سابق.

مقارنة التنسيقات
قارنا نموذجي Gemma 4 E2B وE4B عبر ثلاثة تنسيقات: BF16، Q4_0 QAT، والتنسيق الجديد QAT المحمول. رتبنا هذه التنسيقات حسب استهلاك الذاكرة، حفظ الجودة، ووصولية الجهاز. استخدمنا الأرقام المنشورة فقط. تتطابق أرقام Q4_0 مع حجم PTQ Q4_0، حيث لا يغير QAT الحجم في تنسيق معين، بل يحسن الجودة في هذا الحجم. يوفر التنسيق المحمول خفضًا إضافيًا، حيث خفضت Google حجم Gemma 4 E2B إلى حوالي 1 جيجابايت باستخدام هذا التنسيق. يمكن للمطورين خفضه أكثر من ذلك، حيث يحتاج النموذج النصي فقط دون التضمينات الفريدة لكل طبقة إلى أقل من 1 جيجابايت، عن طريق إزالة مشفرات الصوت والرؤية.
تفاصيل لكل تنسيق
BF16 هو خط الأساس للجودة، حيث يحتاج E2B إلى 9.6 جيجابايت وE4B إلى 15 جيجابايت. هذا هو نقطة المرجعية، وليس هدفًا لنشر على الهواتف أو أجهزة الكمبيوتر المحمولة. Q4_0 QAT هو التنسيق العام للنشر المحلي، حيث ينخفض E2B إلى 3.2 جيجابايت وE4B إلى 5 جيجابايت. يحافظ QAT على جودة أفضل من PTQ في نفس الحجم، مما يجعل هذا التنسيق مناسبًا لأجهزة GPU المستهلكة. تم اختبار E2B سابقًا على Raspberry Pi 5 باستخدام INT4. التنسيق المحمول هو تنسيق متخصص للأجهزة الطرفية، حيث ينخفض E2B إلى حوالي 1 جيجابايت باستخدام تنشيط ثابت، وتكميم قناة-بالقناة، وتكميم 2 بت مستهدف.
كيفية عمل التنسيق المحمول
هندس فريق AI في Google أربع تقنيات مخصصة لأجهزة الأجهزة المحمولة: التنشيط الثابت، والتكميم قناة-بالقناة، والتكميم المستهدف 2 بت، وتكامل التضمينات ومخزن KV، مما يقلل من استهلاك الذاكرة النشط. تظل الطبقات الأساسية للحكم على دقة أعلى لحماية القدرات بينما يتم تقليل التخزين. يمكن للمطورين أيضًا نشر النموذج النصي فقط، مما يقلل الذاكرة أكثر للأغراض التي لا تحتاج إلى تعدد الوسائط.
تقييم التنسيقات
الدرجات هي تصنيف نوعي للتنسيقات للاستخدام على الأجهزة. الذاكرة هي المحور الوحيد المقاس بشكل صارم. الجودة تعكس ما أعلنته Google، وليس الأرقام المقاسة لنموذج Gemma 4. كل درجة لها أساس في جملة واحدة:
- 4 — محفوظة بواسطة QAT، قريبة من الخط الأساس
- 3 — 2 بت في طبقات التوليد، القلب محفوظ على دقة أعلى
- 5 — تنشيط ثابت مخصص للأجهزة المحمولة
- 5 — دعم llama.cpp، Ollama، LM Studio، vLLM، MLX
- 3 — LiteRT-LM، Transformers.js، مخصص للأجهزة الطرفية
- 4 — GPU المستهلك، Raspberry Pi 5
النتيجة هي تعادل مصمم. Q4_0 QAT والتنسيق المحمول QAT كلاهما يحرزان 21 نقطة، لكن لكل منهما أجهزة مختلفة. بالنسبة للهواتف، يسبق التنسيق المحمول، حيث يصل إلى حوالي 1 جيجابايت على E2B ويهدف إلى تسريع الأجهزة المحمولة مباشرة. بالنسبة لللابتوب وأجهزة GPU المستهلكة، Q4_0 QAT هو الخيار العملي الافتراضي. BF16 يظل خط الأساس للجودة، وليس خيارًا محليًا.
طرق العمل والقيود
تأتي أرقام الذاكرة من وثائق Gemma 4 الرسمية، بينما يأتي الرقم 1 جيجابايت تقريبًا لنموذج E2B من إعلان QAT. الجودة هي ما أعلنته Google، ولم تنشر أي أرقام مستقلة لقياس جودة QAT لنموذج Gemma 4 عند الإطلاق. لم نجرِ أي تجارب محلية على هذه النماذج. يجب على المطورين اختبار التكميم وحمل العمل الخاص بهم قبل البناء. يخفض Q4_0 QAT حجم Gemma 4 E2B إلى 3.2 جيجابايت وE4B إلى 5 جيجابايت، مقابل 9.6 جيجابايت و15 جيجابايت على التوالي في BF16. يوفر التنسيق المحمول الجديد خفضًا إضافيًا، حيث يصل حجم E2B إلى حوالي 1 جيجابايت، بينما يصل النموذج النصي فقط دون التضمينات الفريدة لكل طبقة إلى أقل من 1 جيجابايت. يغير QAT الجودة في حجم معين، وليس الحجم نفسه، بينما يوفر التنسيق المحمول خفضًا إضافيًا في الذاكرة. تعلن Google عن جودة أعلى من PTQ، لكن لم تنشر أي أرقام قياسية لQAT لنموذج Gemma 4 عند الإطلاق. يتم شحن الأوزان اليوم على Hugging Face مع دعم llama.cpp، Ollama، LM Studio، vLLM، MLX، وLiteRT-LM.