تحسين تدريب الذكاء الاصطناعي بفضل دعم Megatron-Core في NVIDIA NeMo-RL لزيادة الأداء والكفاءة
أعلنت NVIDIA عن إصدار NeMo-RL v0.3، الذي يُعد خطوة متقدمة في تحسين تدريب النماذج اللغوية الكبيرة باستخدام التعلم المعزز، من خلال دعم مكتبة Megatron-Core كخلفية تدريب مُحسّنة. في الإصدارات السابقة، اعتمد NeMo-RL على PyTorch DTensor (FSDP2) لتمكين التوسع عبر التوازي الطبيعي في PyTorch، لكن عند الوصول إلى نماذج بحجم مئات المليارات من المعاملات، أصبح هذا النهج غير كافٍ بسبب ارتفاع تكاليف ذاكرة التنشيط وتأخيرات إعادة الحساب، إلى جانب غياب كيرنلز مُحسّنة مخصصة لـ NVIDIA CUDA. لحل هذه التحديات، تم دمج دعم Megatron-Core، التي تُعد مكتبة مُصممة خصيصًا للتدريب الكفؤ على أجهزة GPU، وتُقدّم توازيًا 6D يشمل التوازي بالبيانات، بالكثافة، بالسلاسل، والأنبوب، مما يُحسّن توازن الحساب والاتصال ويعزز الأداء في النماذج الضخمة. يُمكن للمطورين تفعيل هذا الدعم عبر إضافة قسم policy.megatron_cfg إلى ملف التكوين YAML، مع تفعيله عبر enabled=True، دون الحاجة إلى التعامل مع التفاصيل المعقدة للتهيئة اليدوية، حيث يقوم NeMo-RL بتقديم واجهة بسيطة وواضحة. أظهرت النتائج تفوقًا كبيرًا لـ Megatron-Core على DTensor من حيث زمن الخطوة، خاصة في النماذج الكبيرة. على سبيل المثال، في نموذج Llama 3.1-8B، انخفض زمن الخطوة من 238 ثانية (باستخدام DTensor) إلى 187 ثانية (باستخدام Megatron)، مع تحسن مماثل في نموذج Llama 3.1-70B، حيث تراجع الزمن من 23097 ثانية إلى 14841 ثانية. كما أظهرت النتائج تقاربًا في أداء التعلم (المنحى التدريبي) بين الطرفين، مع تحسينات في الاستقرار والانسيابية. تم دعم تقنيات مُحسّنة مثل تعبئة التسلسلات (sequence packing)، التي تقلل من عدد الرموز المحصورة (padding) وتُقلل زمن الخطوة بنسبة تصل إلى 1x، خاصة في النماذج ذات الطول المتغير. كما تم تطبيق العينة المهمة (importance sampling) لتقليص الفروق بين التدريب والاستنتاج، مما يُحسّن التوافق في التقارب بين النماذج. بالإضافة إلى ذلك، يدعم Megatron-Core التدريب على نماذج طويلة الذاكرة، مثل Llama 3.3-70B بطول تسلسل 16K، حيث تم تحقيق زمن خطوة مقبول (445 ثانية) مع الحفاظ على الأداء العالي. وتم تطوير ميزات أخرى في الإصدار، مثل دعم النماذج المختلطة (MoE)، وتحسينات في التوسع، وتجهيز أدوات مُبسّطة للتجريب والتوسيع. يُعد هذا التطور خطوة مهمة نحو تسهيل تدريب النماذج اللغوية الكبيرة بكفاءة عالية، مع الحفاظ على دقة التعلم وتحقيق أداء مُحسّن في المهام المعقدة. يشجع NVIDIA المطورين على استكشاف الوثائق والمقتطفات التوضيحية المتاحة لبدء تجربة التدريب باستخدام Megatron-Core، خصوصًا في المشاريع التي تتطلب أداءً عالٍ وتوسعًا مرنًا.