HyperAIHyperAI

Command Palette

Search for a command to run...

نVIDIA تُحدث قفزة ضخمة في أداء استدلال نماذج المزيج الخبيري على أرخص معمارية بلوكتشيل

أعلنت NVIDIA عن تحسينات كبيرة في أداء نماذج الذكاء الاصطناعي من نوع "مزيج الخبراء" (Mixture of Experts) عند التوليد التفسيري، وذلك بفضل التكامل المعمق بين الأجهزة والبرمجيات على منصة Blackwell. تُعدّ هذه التحسينات جزءًا من جهود مستمرة لرفع كفاءة إنتاجية الرموز (token throughput) لكل واط، ما يقلل التكلفة لكل مليون رمز مُولَّد، وهو ما يُعدّ حاسمًا لخدمة النماذج الكبيرة في البيئات السحابية والشركات. تم تطبيق هذه التحسينات على نموذج DeepSeek-R1، وهو نموذج ذكاء اصطناعي متقدم من نوع MoE يبلغ حجمه 671 مليار معلمة، ويُفعّل 37 مليار معلمة لكل رمز مُولَّد. استُخدمت منصة GB200 NVL72، التي تضم 72 وحدة معالجة رسومية Blackwell متصلة عبر تقنية NVLink الجيل الخامس وشرائح مفتاح NVLink، مما يوفر عرض نطاق تردّد ثنائي الاتجاه يصل إلى 1,800 جيجابايت/ثانية بين جميع المعالجات في الرف. هذه البنية تُحسّن كفاءة تبادل البيانات بين "الخبراء" في النموذج، وهو ما يُعدّ حاسمًا لأداء MoE. أحد التحسينات المهمة هو دعم التنسيق العددي NVFP4، وهو تنسيق عددي بـ4 بت مصمم خصيصًا من قبل NVIDIA، ويُحافظ على دقة أعلى مقارنةً بتنسيقات FP4 الأخرى. كما تم تفعيل تقنيات مثل "الخدمة المنفصلة" (disaggregated serving)، التي تُوزع مهام التوليد (prefill) وفك التشفير (decode) على مجموعات مختلفة من المعالجات، ما يُحسّن الاستخدام الفعّال للبنية. أظهرت النتائج تحسينًا يصل إلى 2.8 مرة في أداء كل معالج Blackwell على منصة GB200 NVL72، وذلك بفضل التحديثات الأخيرة في مكتبة TensorRT-LLM المفتوحة المصدر. هذه المكتبة تقدم واجهة برمجة عالية المستوى بلغة بايثون، وتعمل بشكل متوافق مع PyTorch، مما يسهل على المطورين تجريب الأداء وتوسيع الوظائف. على منصة HGX B200، التي تضم 8 وحدات Blackwell، تم تحقيق أداء استثنائي في البيئات المبردة بالهواء. ويعود الفضل في ذلك إلى تقنيتين رئيسيتين: أولًا، تقنية التنبؤ برموز متعددة (Multi-Token Prediction - MTP)، التي زادت من الإنتاجية عبر جميع مستويات التفاعل، وثانيًا، استخدام تنسيق NVFP4، الذي يُستفيد من القدرات الحسابية الكبيرة في وحدات Blackwell، ويُحسن الأداء مع الحفاظ على الدقة. أظهرت الرسوم البيانية المقارنة أن استخدام NVFP4 مع MTP يُحقق أداءً أعلى بكثير من استخدام FP8، سواء في تسلسلات دخل/خرج بطول 1K/1K أو 8K/1K أو 1K/8K، ما يسمح بخدمة عدد أكبر من المستخدمين بجودة أعلى على نفس البنية. بفضل التكامل بين الأجهزة والبرمجيات، تواصل NVIDIA تحقيق تحسينات مستمرة في الأداء، ليس فقط من خلال إطلاق منتجات جديدة سنويًا، بل أيضًا عبر تحسينات مستمرة في البرمجيات. هذه الجهود تضمن استمرار إنتاجية البنية التحتية الحالية، وتحقيق أقصى قيمة من ملايين وحدات GPU المثبتة في مراكز البيانات حول العالم.

الروابط ذات الصلة

نVIDIA تُحدث قفزة ضخمة في أداء استدلال نماذج المزيج الخبيري على أرخص معمارية بلوكتشيل | القصص الشائعة | HyperAI