HyperAI

توفر نفيديا دعمًا شاملاً لمُحسّسات التدريب الناشئة، مثل مُحسّن Muon، التي تهدف إلى تسريع تدريب نماذج اللغيات الكبيرة (LLMs) بشكل ملحوظ. يُعد Muون خوارزمية تحسين من الرتبة الثانية تعتمد على التكرارات المتساوية، وقد أثبتت فعالية عالية في تدريب نماذج رائدة مفتوحة المصدر مثل Kimi K2 وGLM-5. تهدف هذه التقنيات إلى تعزيز كفاءة التدريب مع الحفاظ على الدقة، متجاوزةً قيود المحسّسات التقليدية مثل AdamW. في اختبارات الأداء على نظام NVIDIA GB300 NVL72 المكون من 256 معالجًا للرسوميات، أظهرت النتائج أن استخدام Muon ينتج عنه خسارة طفيفة جدًا في سرعة التدريب مقارنة بـ AdamW، مع تحقيق استغلال أعلى للعمليات الحسابية (MFU). تم تحقيق هذه النتائج باستخدام مكتبة NVIDIA NeMo Megatron Bridge الإصدار 26.02، التي توفر بيئة مبنية على PyTorch لتشغيل نماذج اللغة المرئية واللغوية. لضمان تشغيل هذه المحسّسات المعقدة على نطاق واسع، تواجهها تحديات تقنية تتعلق بزيادة التكلفة الحسابية والذاكرة، وعدم الاستقرار العددي، وصعوبة توزيع التحديثات المتزامنة عبر آلاف وحدات المعالجة. لحل هذه المشكلات، طورت نفيديا تقنيات متقدمة، أبرزها "المحسّن الموزع على مستوى الطبقات". على عكس الطريقة التقليدية التي توزع العناصر بشكل متساوٍ، تقوم هذه التقنية بتوزيع طبقات كاملة من النموذج على كل معالج، مما يسمح لكل جهاز بحساب التحضير (Preconditioning) اللازم لـ Muon باستخدام بيانات كاملة للطبقة دون الحاجة إلى جمع البيانات أولاً. كما تطورت طرق توزيع خطوات التكرار المتساوي (Newton-Schulz) داخل نمط التوازي الموجه بالرموز (Tensor Parallelism). تقدم نفيديا ثلاثة أوضاع للتشغيل: وضع النسخ المتماثل الذي يقلل من تأخير الشبكة عن طريق تكرار الحسابات، ووضع التوزيع الذي يقسم الحسابات بين الأجهزة لزيادة الكفاءة الحسابية، ووضع كتلي (Blockwise) الذي يقلل التكلفة ولا يتطلب اتصالات بين الأجهزة ولكنه لا يعادل التوحيد الدقيق لمصفوفة الزخم بالكامل. شملت التحسينات الإضافية تقنيات لإخفاء وقت الاتصالات عن طريق تأخير تجميع المعلمات حتى الخطوة التالية، وتحسين توازن الأحمال الحسابية بين الطبقات المختلفة، واستخدام خوارزميات SYRK لدمج العمليات الحسابية وتقليل العمليات العائمة بنحو النصف. إلى جانب Muon، تدعم نفيديا محسّسات أخرى للبحث مثل SOAP، مع توفير تكامل كامل في مكتبة Megatron Core. يتيح هذا التكامل للمطورين بدء استخدام هذه التقنيات فورًا، مع توجيهات متاحة في مستودعات GitHub لإعادة إنتاج نتائج الأداء. يمثل هذا التقدم خطوة مهمة نحو تمكين التدريب الضخم للنماذج اللغوية بكفاءة غير مسبوقة، مع الحفاظ على استقرار الشبكة ودقة النتائج.

الروابط ذات الصلة

الروابط ذات الصلة

الروابط ذات الصلة

Command Palette

تطوير محسّنات جديدة لتسريع تدريب LLM مع NVIDIA Megatron

الروابط ذات الصلة

Command Palette

تطوير محسّنات جديدة لتسريع تدريب LLM مع NVIDIA Megatron

الروابط ذات الصلة

Command Palette

تطوير محسّنات جديدة لتسريع تدريب LLM مع NVIDIA Megatron

الروابط ذات الصلة