تحسين الاتصال في تدريب نماذج المزيج من الخبراء باستخدام التوازي الهجين
في تدريب النماذج الكبيرة ذات التوليف المتعدد (MoE)، تُعدّ عملية التوازي بين الخبراء (Expert Parallelization - EP) تحديًا كبيرًا بسبب طبيعتها الديناميكية والنادرة، حيث يتم تنشيط عدد محدود من الخبراء لكل معاملة ذكاء اصطناعي، مما يجعل الاتصال بين الوحدات المعالجة (All-to-All) معقدًا ومحفوفًا بالكفاءة. نموذج DeepSeek-V3، أحد أبرز نماذج الجيل الجديد، يُظهر هذه التحديات بوضوح، حيث يمكن أن تصل أوقات الاتصال إلى أكثر من 50% من الوقت الكلي للتدريب دون تحسين. تُعاني أنظمة التدريب الحالية من مشاكل رئيسية: عوائق كفاءة الاتصال بسبب التكرار العالي لعمليات الاتصال، عدم توازن الحمل بسبب تراكم عدد كبير من المعاملات على خبراء محددين ("خبراء ساخنة") بينما يظل آخرون غير مستخدمين، وصعوبة التكيف مع الإطارات الحديثة التي تتطلب دعمًا متقدمًا للتوسيع، والحسابات منخفضة الدقة، وجدولة الموارد الديناميكية. لحل هذه التحديات، طوّرت شركة NVIDIA حلًا مبتكرًا يُسمى Hybrid-EP، وهو مكتبة تواصل مخصصة لتحسين أداء التوازي بين الخبراء في نماذج MoE، مدمجة ضمن إطار Megatron Core، وهو مكتبة مفتوحة المصدر تدعم التدريب على نطاق ضخم. يُعد Hybrid-EP مُحسّنًا بشكل مذهل من حيث الكفاءة، حيث يحقق أداءً قريبًا من الحد الأقصى لعرض النطاق الترددي للهاردوير، ويقلل من استهلاك وحدات المعالجة الرسومية (SMs) أثناء العمليات. يُبنى Hybrid-EP على مبدأ الاتصال الهجين بين NVLink (داخل العقدة) وRDMA عبر شبكات InfiniBand أو Ethernet (بين العقد)، مما يُحسّن من عرض النطاق الترددي عبر الحدود. يعتمد الحل على خط أنابيب بيانات ديناميكية، حيث يتم تقسيم البيانات إلى كتل صغيرة وتدفقها عبر مستويات متعددة من الاتصال، مما يُخفي معظم تأخيرات الاتصال ويُحقق أداءً مشابهًا لعملية All-to-All الثابتة المُحسّنة. يُعالج Hybrid-EP عمليتي التفريغ (dispatch) والدمج (combine)، حيث يُرسل كل كتلة بيانات عبر خط أنابيب متكاملة داخل كل كتلة CUDA. في عملية التفريغ، تقوم مجموعات وارب (warp) بقراءة البيانات، وإرسالها عبر RDMA، ثم تخزينها في ذاكرة مشتركة (FIFO)، قبل إعادة توزيعها. وفي عملية الدمج، يتم جمع البيانات داخل العقدة أولاً، ثم نقلها عبر الشبكة، واتمام الجمع على مستوى الشبكة، مع دعم دقيق للحسابات عالية الدقة (BF16) ودعم مدمج للحسابات منخفضة الدقة (FP8). أُجريت اختبارات على منصات متعددة: على منصة DGX Hopper (8 H100)، استخدم Hybrid-EP فقط 8 SMs لملء عرض النطاق الترددي لـ NVLink. وفي تجربة متعددة العقد باستخدام 32 GPU (4 عقد DGX Hopper)، استُخدمت 4 SMs فقط لتقريب أقصى عرض نطاقي للـ NIC (400 جيجابت/ثانية). كما تم اختبار النظام على منصة Grace Blackwell باستخدام 36 GPU، حيث استُخدمت 16 SM فقط لملء عرض النطاق الترددي لـ NVLink. في التطبيقات العملية، تم دمج Hybrid-EP في إطار Megatron Core، مع دعم متكامل لـ PyTorch، ويُعتمد على آلية إدارة ذاكرة مُحسّنة، تُستخدم ذاكرة مُسجّلة (registered buffer) كمصدر موحد للاتصال بين العقد، وذاكرة عادية (normal buffer) للكشف عن التغيرات الديناميكية في حجم البيانات. تم تطبيق استراتيجية تخصيص مسبق لضمان استقرار الأداء. النتائج تُظهر تحسينًا كبيرًا: في نموذج DeepSeek-V3، تُحقق Hybrid-EP تسريعًا بنسبة 1.14x مقارنةً بـ DeepEP، مع تحسين في الأداء من 829 إلى 943 TFLOPS/GPU. كما أظهرت النتائج تحسنًا ملحوظًا في نماذج أخرى مثل Qwen 3 وDeepSeek-V3-FSDP. بفضل Hybrid-EP، أصبح من الممكن تحقيق تدريب نماذج MoE بسرعة تصل إلى 10 أضعاف، مع تقليل التكلفة إلى 1/10، مما يُمكّن من تطوير نماذج ذكاء اصطناعي أكثر تعقيدًا وفعالية على منصات حديثة مثل NVIDIA Blackwell وQuantum InfiniBand.
