HyperAIHyperAI

Command Palette

Search for a command to run...

ديفوزن جيما ذكاء محلي 4x أسرع

أعلنت جوجل مؤخراً عن الإصدار الرسمي للنموذج المفتوح المصدر التجريبي DiffusionGemma، في خطوة تشير إلى تحول مهم في نموذج توليد نماذج اللغات الكبيرة. ينتمي هذا النموذج إلى عائلة Gemma 4، ويعتمد على بنية "المساعدين المتخصصين المختلطين والمتفرقين" (Sparse MoE) التي تحتوي على 26 مليار معامل، حيث يتم تنشيط 3.8 مليار معامل فقط أثناء الاستدلال. وعلى عكس التوليد التسلسلي للكلمات التقليدي القائم على الانحدار الذاتي، يقوم DiffusionGemma بإدخال مفهوم الانتشار من معالجة الصور إلى مجال النص؛ إذ يبدأ النموذج بحاجز عشوائي، ومعالجة متوازية عبر عدة مراحل انتشار أمامي، مما يتيح له إنتاج 256 رمزاً (Token) بشكل مباشر في كل مرة قبل أن يتقارب نهائياً ليصبح نصاً كاملاً. هذا الهيكل يغير جذرياً عقبة الحوسبة للاستدلال المحلي. فالنماذج التقليدية تعاني من محدودية عرض النطاق الترددي للذاكرة وتوقعات حرفية ما يؤدي لاستخدام منخفض لوحدة المعالجة الرسومية GPU؛ بينما يركز DiffusionGemma الحمل الحسابي ويطلقه دفعة واحدة، مما يجعل سرعة استدلاله تصل لأكثر من 1000 رمز/ثانية على NVIDIA H100 وأكثر من 700 رمز/ثانية على RTX 5090، محققاً تسريعاً يصل إلى أربعة أضعاف بفضل آلية انتباه ثنائية الاتجاه. كما يتميز النموذج بأداء متميز في المهام غير الخطية مثل التعديل داخل السطر وملء الأكواد الرياضية وهياكل الرسوم البيانية والتصحيح الذاتي الفوري. تؤكد جوجل أن DiffusionGemma موجه صراحةً للتوزيع المحلي وسيناريوهات الإنتاج المنخفضة بالتزامن. ورغم زيادة السرعة الهائلة الناتجة عن التوليد المتوازٍ، إلا أن جودة المخرجات الكلية لا تزال أقل قليلاً مقارنة بنسخة Gemma 4 القياسية، وبالتالي فهي ليست مناسبة لخدمات سحابية ذات معدل طلبات عالي (High QPS). تم إصدار النموذج بموجب رخصة Apache 2.0، ويمكن تشغيله بعد تكميم البيانات (Quantization) باستخدام ذاكرة فيديو مقدارها 18 جيجابايت فقط، وهو مدعوم بالكامل بواسطة الأطر الرئيسية مثل vLLM و MLX و Hugging Face Transformers، مع تحسين عميق لمعمارية NVIDIA Blackwell ودقة NVFP4. يمكن للمطورين الآن الحصول على الأوزان وإجراء تجاربهم عبر منصة Hugging Face.

الروابط ذات الصلة