Command Palette
Search for a command to run...
MultiPL-MoE : Extension multilingue et multiprogrammation des grands modèles linguistiques par un mélange hybride d'experts
Qing Wang Xue Han Jiahui Wang Lehao Xing Qian Hu Lianlian Zhang Chao Deng Junlan Feng

Résumé
Malgré les excellentes capacités des grands modèles linguistiques (LLM) en matière de génération de code, celle-ci en plusieurs langues reste extrêmement difficile. Pour y remédier, nous visons à améliorer les performances des modèles de base en génération de code multilingue (MultiPL), tout en préservant les modèles les plus populaires, avec des ressources informatiques limitées. Nous considérons le MultiPL comme un cas particulier de traitement de plusieurs langues naturelles, et proposons une extension du modèle LLM appelée MultiPL-MoE, basée sur un mélange hybride d’experts (MoE). Plus précisément, MultiPL-MoE combine deux structures MoE appariées afin d’optimiser la sélection d’experts à la fois au niveau des jetons et au niveau des segments. Le MoE au niveau des jetons repose sur une architecture standard de type upcycling, intégrant un expert partagé et une nouvelle méthode de normalisation des poids de la porte (gate), qui facilite la fusion finale avec le MoE au niveau des segments. Le MoE au niveau des segments introduit deux innovations permettant une meilleure capture de la structure syntaxique et des motifs contextuels propres aux langages de programmation : premièrement, l’utilisation d’une fenêtre coulissante pour partitionner la séquence d’entrée en plusieurs segments ; deuxièmement, une stratégie de routage basée sur le choix d’experts permettant à ceux-ci de sélectionner les k meilleurs segments. Les résultats expérimentaux confirment l’efficacité de MultiPL-MoE.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.