MultiPL-MoE: توسيع النماذج اللغوية الكبيرة متعددة البرمجة واللغة من خلال مزيج الهجين من الخبراء
Qing Wang Xue Han Jiahui Wang Lehao Xing Qian Hu Lianlian Zhang Chao Deng Junlan Feng

الملخص
رغم الكفاءة المتميزة لنموذجات اللغة الكبيرة (LLMs) في إنشاء الشيفرة البرمجية، تظل مسألة توليد الشيفرة متعددة اللغات تحديًا كبيرًا. وللتصدي لهذا التحدي، نهدف إلى تحسين أداء النماذج الأساسية لـ LLMs في التوليد متعدد اللغات البرمجية (MultiPL)، مع الحفاظ على النماذج الأكثر شيوعًا، وذلك باستخدام موارد حسابية محدودة. ونعتبر MultiPL حالة خاصة من اللغات الطبيعية المتعددة، ونقترح توسيع نماذج LLMs باستخدام نموذج مختلط من الخبراء (MoE) هجينًا، يُعرف باسم MultiPL-MoE. وبشكل خاص، يدمج MultiPL-MoE بين نموذجين مزدوجين من MoE لتحسين اختيار الخبراء على كل من مستوى الرموز (tokens) ومستوى القطع (segments). ويتميز MoE على مستوى الرموز ببنية MoE القياسية مع خبير مشترك، وطريقة مبتكرة لمعايرة أوزان البوابة (gate weights) تُسهم في التكامل الفعّال مع MoE على مستوى القطع. أما MoE على مستوى القطع، فيُ incorporate تصميمين مبتَكِرين لتحسين التقاط البنية النحوية وأنماط السياق في اللغات البرمجية: أولاً، استخدام نافذة منزلقة لتقسيم تسلسل الرموز المدخل إلى عدة قطع؛ ثانياً، اعتماد استراتيجية توجيه اختيار الخبراء التي تسمح للخبراء باختيار أفضل k قطعة. وأثبتت نتائج التجربة فعالية نموذج MultiPL-MoE.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.