تحسين تدريب النماذج المحولة بدقة منخفضة
في ظل التوسع المتسارع في حجم نماذج الذكاء الاصطناعي التوليدي، أصبح تسريع عمليات تدريب نماذج المحولات عاملاً حاسماً يحدد قدرة الفرق التقنية على إجراء التجارب وتدريب نماذج أكبر ضمن حدود ميزانية الحساب. وتستجيب نفيديا لهذا التحدي من خلال دعم لوحات معالجة الرسومات من عائلتي هوبر وبلاكويل لتنسيقات الدقة المنخفضة مثل FP8 وNVFP4، مما يهدف إلى خفض استهلاك ساعات الحوسبة وتسريع دورات التطوير الهندسي. تعتمد غالبية وقت التدريب في هذه المعماريات على عمليات ضرب المصفوفات العامة. ولتحويل الدعم النظري للدقة المنخفضة إلى مكاسب أداء حقيقية، تطرح نفيديا منهجية دقيقة تعتمد على تحويل معلمات النموذج وحجم الدفعة إلى أشكال مصفوفات M×K×N الفعلية التي ينفذها النموذج. وتسمح الأداة المرفقة مع محرك التحويل بتقييس هذه الأشكال بدقة عبر الدقة المنخفضة، مما يمكّن الباحثين من تحديد الإعداد الأمثل قبل خوض تكاليف التدريب الكامل على نماذج مثل CodonFM المخصص للبيولوجيا. يكشف التحليل المقارن بين وضعي التشغيل عن دلالات هندسية مهمة. يعمل المحرك افتراضياً بوضع التشغيل التلقائي الذي يقيس الأداء الشامل لخطوة التدريب، مشملاً تكلفة التكميم الديناميكي قبل كل عملية ضرب مصفوفة. في المقابل، يعزل وضع التكميم المسبق أداء نواة الحساب الخام دون تكاليف التحويل الديناميكي. وتوضح النتائج أن المكاسب النظرية لـ NVFP4 قد تقترب من ثلاثة أضعاف مقارنة بـ BF16، لكن في السيناريوهات الواقعية، تقتصر المكاسب الفعلية على العمليات الكبيرة مثل طبقات الترحيل متعدد الطبقات، بينما تكون محدودة للغاية في عمليات الانتباه بسبب صغر حجم المصفوفات وعدم قدرتها على استيعاب الحمل الإضافي. كما يظهر أن وضع FP8 التأخير في التقييس يتفوق عملياً على بدائله في وضع التشغيل العادي على رقائق بلاكويل، مما يعكس كفاءة عالية في تقليل الأحمال الإضافية. وتسلط المنهجية الضوء أيضاً على أهمية تقييس المشتقات الأمامية والخلفية بشكل منفصل، حيث تُظهر الفروق الهيكلية للمصفوفات تأثيراً كبيراً على اختيار نواة التنفيذ وسرته في تنسيقات الدقة المنخفضة. تحذر التقييمات التقنية من افتراض أن تفعيل الدقة المنخفضة يضمن تسريعاً تلقائياً للتدريب الشامل. فالحمل الإضافي الناتج عن التكميم، واختيار النواة، والعمليات غير الخاصة بالمصفوفات قد تقلل المكاسب بشكل ملحوظ. كما قد تتسرب المحركات أحياناً إلى استخدام دقة أعلى بشكل صامت للنطاقات غير المدعومة، مما يستدعي مراقبة سجلات المحرك وحجم الذاكرة للتحقق من التنفيذ الفعلي. تقدم هذه المنهجية خارطة طريق عملية للفرق الهندسية. فمن خلال تحويل التكوينات عالية المستوى إلى أحمال عمل مصفوفية قابلة للقياس، يمكن للباحثين مقارنة تنسيقات الدقة بدقة، وتفادي فخ الأداء الوهمي، وضمان تحقيق تسريع ملموس في دورة تدريب نماذج الذكاء الاصطناعي على البنية الحديثة لنفيديا.
