HyperAI
منذ 19 أيام

بانغو برو موإي: خليط من الخبراء المجموعين لتحقيق الكفاءة والندرة

Tang, Yehui ; Li, Xiaosong ; Liu, Fangcheng ; Guo, Wei ; Zhou, Hang ; Wang, Yaoyuan ; Han, Kai ; Yu, Xianzhi ; Li, Jinpeng ; Zang, Hui ; Mi, Fei ; Meng, Xiaojun ; Liu, Zhicheng ; Chen, Hanting ; Zheng, Binfan ; Chen, Can ; Yan, Youliang ; Tang, Ruiming ; Qin, Peifeng ; Chen, Xinghao ; Tao, Dacheng ; Wang, Yunhe
بانغو برو موإي: خليط من الخبراء المجموعين لتحقيق الكفاءة والندرة
الملخص

ظهور نموذج خليط الخبراء (Mixture of Experts - MoE) في النماذج اللغوية الكبيرة يعد بتكاليف تنفيذية أقل بكثير مقابل عدد أكبر بكثير من معلمات النموذج وسعة تعلم أكبر، حيث يتم تنشيط جزء صغير فقط من المعلمات لكل رمز دخول (token). ومع ذلك، يُلاحظ عمومًا أن بعض الخبراء يتم تنشيطهم بشكل أكثر تكرارًا من غيرهم، مما يؤدي إلى عدم كفاءة النظام عند تشغيل الخبراء على أجهزة مختلفة بالتوازي. لذلك، نقدم نموذج خليط الخبراء المجمّعين (Mixture of Grouped Experts - MoGE)، الذي يقوم بتجميع الخبراء أثناء الاختيار ويوازن عبء العمل بين الخبراء بشكل أفضل من MoE بطبيعته. يقيّد هذا النموذج الرموز (tokens) بتنشيط عدد متساوٍ من الخبراء داخل كل مجموعة خبراء محددة مسبقًا. عند توزيع تنفيذ النموذج على أجهزة متعددة، يضمن هذا التصميم المعماري تحميلًا حسابيًا متوازنًا عبر الأجهزة، مما يعزز الإنتاجية بشكل كبير، خاصةً خلال مرحلة الاستدلال.بالإضافة إلى ذلك، قمنا ببناء Pangu Pro MoE على معالجات Ascend NPUs، وهو نموذج نادر (sparse model) يستند إلى MoGE ويحتوي على 72 مليار معلمة إجمالية، منها 16 مليار يتم تنشيطها لكل رمز دخول. تم تعظيم تكوين Pangu Pro MoE لمعالجي Ascend 300I Duo و 800I A2 من خلال دراسات محاكاة نظامية واسعة النطاق. تشير تجاربنا إلى أن MoGE يؤدي بالفعل إلى تحقيق توازن أفضل في عبء عمل الخبراء وكفاءة أعلى في التنفيذ سواءً أثناء تدريب النموذج أو الاستدلال عليه على معالجات Ascend NPUs. يصل أداء الاستدلال لـ Pangu Pro MoE إلى 1148 رمزًا في الثانية لكل بطاقة ويمكن تعزيزه أكثر إلى 1528 رمزًا في الثانية لكل بطاقة عن طريق التسارع التكهني (speculative acceleration)، مما يجعله يتفوق على نماذج كثيفة (Dense models) مماثلة تحتوي على 32 مليار و72 مليار معلمة.علاوة على ذلك، حققنا نسبة أداء إلى التكلفة ممتازة للاستدلال على معالجي Ascend 300I Duo. تظهر دراساتنا أن معالجات Ascend NPUs قادرة على تدريب Pangu Pro MoE باستخدام تقنيات التوازي الضخم لجعله نموذجًا رائدًا ضمن فئة النماذج التي تحتوي على أقل من 100 مليار معلمة إجمالية، مما يجعله يتفوق على نماذج المصدر المفتوح البارزة مثل GLM-Z1-32B و Qwen3-32B.