HyperAIHyperAI

Command Palette

Search for a command to run...

تسريع تدريب النماذج بـ NVFP4

أطلقت شركة نيفيديا وصلة تدريب NVFP4 المدمجة مع مكتبة JAX وإطار عمل MaxText لتمكين تدريب النماذج اللغوية الكبيرة على معمارية Blackwell بدقة دون البت. يهدف هذا التطوير إلى معالجة التحدي الحاسم المتمثل في تقليل وقت الخطوة التدريبية عند معالجة تريليونات الرموز عبر آلاف المعجلات، حيث يؤدي تحسين الدقة الحسابية إلى توفير أيام من الوقت وتقليل تكاليف الحوسبة بشكل ملموس. تعتمد صيغة NVFP4 على تقنية التروس الميكروية ثنائية المستوى لتمثيل الإشارات بدقة أعلى وأخطاء أقل. وتُعد هذه الصيغة مدعومة بشكل أصلي في شريحة GB300 Grace Blackwell Ultra، مما يضاعف إنتاجية عمليات الضرب والمصفوفات إلى سبعة أضعاف مقارنة بـ FP8 على معمارية Hopper. لتحقيق هذا الأداء مع الحفاظ على تقارب النموذج، تدمج الوصفة تقنيات متقدمة تشمل الكمون الكتلي ثنائي الأبعاد للأوزان، وتحويل هادامارد العشوائي لتخفيف القيم الشاذة، بالإضافة إلى التقريب العشوائي لتدرجات الوزن. ويُطبق هذا الكمون حصرياً على طبقات التغذية الأمامية لتجنب تضخيم الضوضاء الحسابية في طبقات الانتباه، مع الإبقاء على عمليات الانتباه بدقة أعلى. أظهرت الاختبارات المعيارية على نماذج Llama 3 المقاسات 8 مليار و405 مليار معلمة، تشغيلها على معالجات GB200 وGB300، تحقيق تسارع حقيقي تراوح بين 1.31 و1.73 ضعفاً مقارنة بنسخة FP8، مع ثبات تام في منحنى دالة الخسارة وفقدان دقة قابل للإهمال بعد عشرة آلاف خطوة تدريبية. يُعزى هذا التحسن بشكل مباشر إلى خفض دقة العمليات الحسابية الأساسية مع بقاء المعلمات الأخرى وسعة الدفعة العالمية متطابقة. أصبح بإمكان الباحثين تفعيل هذه الوصفة مباشرة عبر مستودع JAX-Toolbox على منصة GitHub. يتطلب الإعداد تشغيل حاوية MaxText الرسمية وتفعيل علامة الكمون الخاصة بـ NVFP4، مع إمكانية تتبع مقاييس الأداء لحظة بلحظة. يفتح هذا التطوير الباب أمام مراكز الحوسبة المتقدمة لتدريب نماذج أكبر حجماً وبكفاءة أعلى ضمن ميزانيات زمنية ثابتة، مما يعزز قدرات نشر الأنماذج المتقدمة دون المساس بجودتها.

الروابط ذات الصلة

تسريع تدريب النماذج بـ NVFP4 | القصص الشائعة | HyperAI