تسريع أداء التدريب بدقة FP8 باستخدام إطار عمل NVIDIA NeMo
تُعد تقنية التدريب بدقة FP8 واحدة من أبرز التطورات في مجال الذكاء الاصطناعي، حيث تُحسّن الكفاءة الحسابية بشكل كبير عبر تقليل دقة التمثيل من 16 أو 32 بت إلى 8 بت، مما يُسرّع العمليات الحسابية ويخفّف من استهلاك الذاكرة والطاقة. في هذا التقرير، تُقدّم NVIDIA تحليلًا عمليًا لفعالية FP8 باستخدام إطار NeMo، مع مقارنة بين أربع طرق رئيسية لتصحيح التمثيل (scaling recipes) على أجهزة H100 وDGX B200. أظهرت النتائج أن التسارع الفعلي يعتمد على نوع النموذج ودقة التصحيح. على جهاز H100، حقق نموذج Llama 3.1 405B تحسنًا بنسبة 1.53x مقارنةً بالدقة BF16، بينما سجل النموذج الأصغر Llama 3 8B تحسنًا بنسبة 1.30x. يُعزى هذا التدرج إلى أن التحسينات الحسابية تزداد أهمية مع زيادة حجم النموذج، حيث تصبح العمليات المصفوفية (GEMM) أكثر كفاءة مع الدقة المنخفضة. من حيث دقة التصحيح، تُظهر الطرق ذات الحجم الأدق (مثل MXFP8 وblock-wise scaling) أداءً أفضل من حيث الاستقرار العددي. فعلى سبيل المثال، تُظهر خوارزمية FP8-blockwise تطورًا في خسارة التدريب يشبه بدقة BF16 بدقة عالية، بينما تُظهر النسخة المُصغّرة (per-tensor) تقلبات طفيفة. هذا يشير إلى أن التصحيح الدقيق يُقلل من فقدان الدقة، رغم أنّه قد يُقلّل من السرعة القصوى قليلاً. على جهاز DGX B200، تُظهر خوارزمية MXFP8، المصممة خصيصًا لدعم التصحيح على كتل من 32 قيمة، تحسنًا متسقًا يتراوح بين 1.28x و1.37x، مع استقرار عالٍ عبر جميع حجم النماذج. يُعزى هذا إلى تحسينات معمارية في وحدات Tensor Cores وبنية الذاكرة في معمارية Blackwell، التي تُحسّن كفاءة المعالجة الكتلية. بالمقارنة، يُظهر جهاز GB200 Grace Blackwell Superchip، الذي يدمج جهازي B200 مع معالج CPU Grace عبر NVLink، أداءً أفضل بفضل الذاكرة الموحدة والعرض العالي للبيانات، ما يُقلّل من تأخيرات نقل البيانات، ويُعزز الأداء في النماذج الكبيرة. خلاصةً، تُظهر النتائج أن FP8 ليس مجرد تحسين نظري، بل يُحقق فوائد عملية حقيقية، خاصة في النماذج الكبيرة. الخيار الأمثل يعتمد على التوازن بين السرعة والدقة: النماذج الكبيرة تُستفيد أكثر من التصحيح الدقيق (مثل MXFP8)، بينما النماذج المتوسطة قد تُفضّل التصحيح الأقل دقة لتعظيم السرعة. باستخدام إطار NeMo 25.04، أصبح من السهل تجربة هذه التقنيات في بيئات الإنتاج، مما يُمكّن الباحثين من تدريب نماذج أكبر بسرعة أكبر وبتكاليف أقل.