HyperAIHyperAI

Command Palette

Search for a command to run...

MultiPL-MoE: توسيع النماذج اللغوية الكبيرة متعددة البرمجة واللغة من خلال مزيج الهجين من الخبراء

Qing Wang Xue Han Jiahui Wang Lehao Xing Qian Hu Lianlian Zhang Chao Deng Junlan Feng

الملخص

رغم الكفاءة المتميزة لنموذجات اللغة الكبيرة (LLMs) في إنشاء الشيفرة البرمجية، تظل مسألة توليد الشيفرة متعددة اللغات تحديًا كبيرًا. وللتصدي لهذا التحدي، نهدف إلى تحسين أداء النماذج الأساسية لـ LLMs في التوليد متعدد اللغات البرمجية (MultiPL)، مع الحفاظ على النماذج الأكثر شيوعًا، وذلك باستخدام موارد حسابية محدودة. ونعتبر MultiPL حالة خاصة من اللغات الطبيعية المتعددة، ونقترح توسيع نماذج LLMs باستخدام نموذج مختلط من الخبراء (MoE) هجينًا، يُعرف باسم MultiPL-MoE. وبشكل خاص، يدمج MultiPL-MoE بين نموذجين مزدوجين من MoE لتحسين اختيار الخبراء على كل من مستوى الرموز (tokens) ومستوى القطع (segments). ويتميز MoE على مستوى الرموز ببنية MoE القياسية مع خبير مشترك، وطريقة مبتكرة لمعايرة أوزان البوابة (gate weights) تُسهم في التكامل الفعّال مع MoE على مستوى القطع. أما MoE على مستوى القطع، فيُ incorporate تصميمين مبتَكِرين لتحسين التقاط البنية النحوية وأنماط السياق في اللغات البرمجية: أولاً، استخدام نافذة منزلقة لتقسيم تسلسل الرموز المدخل إلى عدة قطع؛ ثانياً، اعتماد استراتيجية توجيه اختيار الخبراء التي تسمح للخبراء باختيار أفضل k قطعة. وأثبتت نتائج التجربة فعالية نموذج MultiPL-MoE.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MultiPL-MoE: توسيع النماذج اللغوية الكبيرة متعددة البرمجة واللغة من خلال مزيج الهجين من الخبراء | مستندات | HyperAI