بانغو برو مو إي: خليط من الخبراء المجموع لتحقيق كفاءة أعلى في الندرة وإدارة الأحمال
ملخص دراسة Pangu Pro MoE: مزيج من الخبراء المجمّعين لتحقيق كفاءة عالية في الندرة في السنوات الأخيرة، ظهرت تقنية "مزيج الخبراء" (MoE) كوسيلة فعالة لزيادة حجم النماذج اللغوية الكبيرة (Large Language Models) مع الحفاظ على تكلفة التنفيذ المنخفضة. الفكرة الأساسية وراء MoE هي تنشيط جزء صغير فقط من المعلمات لكل رمز مدخل، مما يتيح بناء نماذج ذات حجم ضخم مع تكلفة تشغيلية مقبولة. ومع ذلك، تم رصد مشكلة في هذه التقنية وهي أن بعض الخبراء يتم تنشيطهم بكثافة أكبر من غيرهم، مما يؤدي إلى عدم توازن الأعباء الحسابية عند توزيع النموذج على أجهزة متعددة. للتغلب على هذه المشكلة، قدم فريق من الباحثين من شركات مختلفة تقنية جديدة تسمى "مزيج الخبراء المجمّعين" (MoGE). هذه التقنية تقوم بتجميع الخبراء أثناء عملية الاختيار، مما يضمن توزيعًا أكثر توازنًا للأعمال بين الخبراء. هذا التصميم يحافظ على تنشيط عدد متساوٍ من الخبراء داخل كل مجموعة محددة مسبقًا، وهو ما يعزز من كفاءة التحميل الحسابي بين الأجهزة ويزيد من معدل الإنتاجية، خاصة في مرحلة الاستدلال (inference). بناءً على هذه التقنية، طور الباحثون نموذجًا جديدًا يُدعى Pangu Pro MoE، الذي يستند إلى Ascend NPUs. هذا النموذج النادر (sparse model) يتكون من 72 مليار معلمة إجمالية، ولكن يتم تنشيط 16 مليار معلمة فقط لكل رمز مدخل. تم تحسين تكوين Pangu Pro MoE بشكل كبير من خلال دراسات محاكاة نظامية مكثفة لضمان أداء ممتاز على أجهزة Ascend 300I Duo و 800I A2. التجارب التي أجريت على Pangu Pro MoE أظهرت أن MoGE يحقق توازنًا أفضل في الأعباء الحسابية لخبراء النموذج، مما يعزز الكفاءة في عمليات التدريب والاستدلال على Ascend NPUs. أداء الاستدلال للنموذج يبلغ 1148 رمزًا ثانية لكل بطاقة، ويمكن تحسينه إلى 1528 رمزًا ثانية لكل بطاقة باستخدام تقنيات التسارع المضاربة (speculative acceleration). هذه النتائج تتفوق بشكل كبير على نماذج كثيفة مماثلة مثل النماذج ذات 32 مليار و72 مليار معلمة. بالإضافة إلى ذلك، حقق الباحثون نسبة تكلفة إلى أداء ممتازة في استدلال النموذج على Ascend 300I Duo. تشير الدراسات إلى أن Ascend NPUs قادرة على تدريب Pangu Pro MoE باستخدام موازاة كبيرة جدًا، مما يجعلها نموذجًا رائدًا ضمن فئة النماذج ذات أقل من 100 مليار معلمة. وقد تفوقت هذه النتائج على نماذج بارزة أخرى مفتوحة المصدر مثل GLM-Z1-32B و Qwen3-32B. تقييم الحدث من قبل المختصين أكد خبراء في مجال الذكاء الاصطناعي أن تقنية MoGE تمثل تقدمًا كبيرًا في تصميم النماذج النادرة (sparse models)، حيث أنها تحل مشكلة عدم التوازن في الأعباء الحسابية بشكل فعال. هذا التقدم يفتح الباب أمام إمكانات جديدة في تطوير نماذج ذات حجم أكبر بكثير وبتكلفة تشغيلية مقبولة، مما يمكن الشركات والباحثين من تحقيق ابتكارات متقدمة في معالجة اللغة الطبيعية. نبذة تعريفية عن Ascend NPUs Ascend NPUs هي سلسلة من وحدات المعالجة العصبية (Neural Processing Units) التي طورتها شركة Huawei. هذه الوحدات مصممة خصيصًا لدعم العمليات الحسابية المعقدة المطلوبة في نماذج الذكاء الاصطناعي، خاصة تلك التي تتعامل مع بيانات اللغة الطبيعية. Ascend NPUs تتميز بكفاءة عالية في استهلاك الطاقة وقدرة كبيرة على الموازاة، مما يجعلها الخيار الأمثل لتدريب وإجراء استدلال على نماذج الذكاء الاصطناعي الضخمة والنادرة مثل Pangu Pro MoE.