HyperAI

منذ يوم واحد

كشف باحثون في جامعة كاليفورنيا سان دييغو خلال فبراير 2026 عن تقنية DFlash للترميز التخميني، وهي إطار عمل مفتوح المصدر مصمم لتسريع استدلال النماذج اللغوية الكبيرة عبر معالجات NVIDIA Blackwell. تواجه أنظمة الذكاء الاصطناعي الحديثة تحديات في زمن الاستجابة نتيجة التوليد التسلسلي للرموز، وتعتمد DFlash على بنية انتشار كتلي خفيفة تُولّد كتلة كاملة من الرموز المرشحة في عملية تشغيل واحدة، ليتم التحقق من صحتها متوازياً بواسطة النموذج المستهدف. يحوّل هذا النهج عبء الحساب من التسلسلي إلى المتوازي، مما يتوافق بشكل مثالي مع معماريات Blackwell Ultra ذات النطاق الترددي الداخلي العالي وقدرات الحساب الكثيفة. تظهر التجارب المعملية على أنظمة NVIDIA DGX B300 باستخدام TensorRT-LLM تحسناً هائلاً في المقاييس التشغيلية، حيث يتجاوز تسريع نموذج gpt-oss-120b نسبة 15 ضعفاً عند الحفاظ على نفس معدلات التفاعل، بينما يتضاعف معدل التفاعل لنموذج Llama 3.1 8B مقارنة بخوارزميات EAGLE-3. تم دعم هذه المكاسب عبر مجموعة واسعة من أحمال العمل، بما في ذلك الترميز والاسترجاع والتعامل متعدد اللغات، مع تأكيد الحفاظ على دقة توزيع النموذج الأصلي دون تدهور في الجودة. يتسارع تبني التقنية على مستوى النظام البيئي، حيث وفّر فريق البحث عشرين نقطة فحص متوافقة مع معالجات Blackwell وHopper، وتغطي نماذج مثل Qwen وLlama وGemma. تعمل التكاملات مع منصات الاستدلال السائدة vLLM وSGLang على تبسيط النشر عبر مكتبة Speculators المفتوحة، مما يتطلب فقط تحديث ملف التكوين دون إعادة هندسة التطبيقات. يُمكّن هذا المسار المباشر فرق هندسة الذكاء الاصطناعي من نشر تحسينات الكفاءة وتسريع زمن الاستجابة في بيئات الإنتاج الحالية بكفاءة عالية وتكلفة تشغيلية مخفضة.

تُجمع هذه الأخبار آليًا بالذكاء الاصطناعي لتقديم تحديثات عن القطاع بكفاءة. وهي لا تمثل آراءً أو نصائح.

الروابط ذات الصلة

Boost Inference Performance up to 15x on NVIDIA Blackwell Using DFlash Speculative Decoding

Unknown Source

HyperAI

منذ يوم واحد

LLM

توليد النص

تُجمع هذه الأخبار آليًا بالذكاء الاصطناعي لتقديم تحديثات عن القطاع بكفاءة. وهي لا تمثل آراءً أو نصائح.

الروابط ذات الصلة

Boost Inference Performance up to 15x on NVIDIA Blackwell Using DFlash Speculative Decoding

Unknown Source

HyperAI

منذ يوم واحد

LLM

توليد النص

تُجمع هذه الأخبار آليًا بالذكاء الاصطناعي لتقديم تحديثات عن القطاع بكفاءة. وهي لا تمثل آراءً أو نصائح.

الروابط ذات الصلة

Boost Inference Performance up to 15x on NVIDIA Blackwell Using DFlash Speculative Decoding

Unknown Source

DFlash يُسرّع الاستدلال 15 مرة على NVIDIA Blackwell | القصص الشائعة | HyperAI

Command Palette

DFlash يُسرّع الاستدلال 15 مرة على NVIDIA Blackwell

الروابط ذات الصلة

Command Palette

DFlash يُسرّع الاستدلال 15 مرة على NVIDIA Blackwell

الروابط ذات الصلة

Command Palette

DFlash يُسرّع الاستدلال 15 مرة على NVIDIA Blackwell

الروابط ذات الصلة