MultiPL-MoE: Hybrider Mixture-of-Experts-Ansatz zur Erweiterung großer Sprachmodelle durch mehrsprachige Programmierfähigkeit
Qing Wang Xue Han Jiahui Wang Lehao Xing Qian Hu Lianlian Zhang Chao Deng Junlan Feng

Abstract
Trotz der hervorragenden Fähigkeiten von großen Sprachmodellen (LLMs) bei der Codeerstellung bleibt die mehrsprachige Codegenerierung äußerst herausfordernd. Um diesem Problem zu begegnen, zielen wir darauf ab, die Leistungsfähigkeit bestehender Basis-LLMs in Bezug auf mehrsprachige Programmiersprachen (MultiPL) zu verbessern, ohne dabei die beliebtesten Modelle zu verlassen, und dies unter Nutzung begrenzter Rechenressourcen. Wir betrachten MultiPL als einen Sonderfall mehrerer natürlicher Sprachen und schlagen eine Erweiterung von LLMs vor, die auf einem hybriden Mixture-of-Experts (MoE)-Ansatz basiert und als MultiPL-MoE bezeichnet wird. Konkret kombiniert MultiPL-MoE zwei Paare von MoEs, um die Expertenauswahl auf sowohl der Token- als auch der Segment-Ebene zu optimieren. Das Token-Level-MoE basiert auf einer standardisierten Upcycling-MoE-Architektur mit einem gemeinsamen Experten und einer neuartigen Normalisierungsmethode für die Gate-Gewichte, die die finale Fusion mit dem Segment-Level-MoE unterstützt. Das Segment-Level-MoE integriert zwei innovative Konzepte, um die syntaktischen Strukturen und kontextuellen Muster von Programmiersprachen besser zu erfassen: Erstens wird die Eingabetokenfolge mittels eines gleitenden Fensters in mehrere Segmente unterteilt; zweitens wird eine Expertenauswahl-Routing-Strategie angewendet, die es den Experten ermöglicht, die k-besten Segmente auszuwählen. Die Experimente bestätigten die Wirksamkeit von MultiPL-MoE.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.