HyperAIHyperAI

Command Palette

Search for a command to run...

منذ يوم واحد
LLM
توليد النص

DFlash يُسرّع الاستدلال 15 مرة على NVIDIA Blackwell

كشف باحثون في جامعة كاليفورنيا سان دييغو خلال فبراير 2026 عن تقنية DFlash للترميز التخميني، وهي إطار عمل مفتوح المصدر مصمم لتسريع استدلال النماذج اللغوية الكبيرة عبر معالجات NVIDIA Blackwell. تواجه أنظمة الذكاء الاصطناعي الحديثة تحديات في زمن الاستجابة نتيجة التوليد التسلسلي للرموز، وتعتمد DFlash على بنية انتشار كتلي خفيفة تُولّد كتلة كاملة من الرموز المرشحة في عملية تشغيل واحدة، ليتم التحقق من صحتها متوازياً بواسطة النموذج المستهدف. يحوّل هذا النهج عبء الحساب من التسلسلي إلى المتوازي، مما يتوافق بشكل مثالي مع معماريات Blackwell Ultra ذات النطاق الترددي الداخلي العالي وقدرات الحساب الكثيفة. تظهر التجارب المعملية على أنظمة NVIDIA DGX B300 باستخدام TensorRT-LLM تحسناً هائلاً في المقاييس التشغيلية، حيث يتجاوز تسريع نموذج gpt-oss-120b نسبة 15 ضعفاً عند الحفاظ على نفس معدلات التفاعل، بينما يتضاعف معدل التفاعل لنموذج Llama 3.1 8B مقارنة بخوارزميات EAGLE-3. تم دعم هذه المكاسب عبر مجموعة واسعة من أحمال العمل، بما في ذلك الترميز والاسترجاع والتعامل متعدد اللغات، مع تأكيد الحفاظ على دقة توزيع النموذج الأصلي دون تدهور في الجودة. يتسارع تبني التقنية على مستوى النظام البيئي، حيث وفّر فريق البحث عشرين نقطة فحص متوافقة مع معالجات Blackwell وHopper، وتغطي نماذج مثل Qwen وLlama وGemma. تعمل التكاملات مع منصات الاستدلال السائدة vLLM وSGLang على تبسيط النشر عبر مكتبة Speculators المفتوحة، مما يتطلب فقط تحديث ملف التكوين دون إعادة هندسة التطبيقات. يُمكّن هذا المسار المباشر فرق هندسة الذكاء الاصطناعي من نشر تحسينات الكفاءة وتسريع زمن الاستجابة في بيئات الإنتاج الحالية بكفاءة عالية وتكلفة تشغيلية مخفضة.

الروابط ذات الصلة

DFlash يُسرّع الاستدلال 15 مرة على NVIDIA Blackwell | القصص الشائعة | HyperAI