HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Tagen

MultiPL-MoE: Hybrider Mixture-of-Experts-Ansatz zur Erweiterung großer Sprachmodelle durch mehrsprachige Programmierfähigkeit

Qing Wang Xue Han Jiahui Wang Lehao Xing Qian Hu Lianlian Zhang Chao Deng Junlan Feng

MultiPL-MoE: Hybrider Mixture-of-Experts-Ansatz zur Erweiterung großer Sprachmodelle durch mehrsprachige Programmierfähigkeit

Abstract

Trotz der hervorragenden Fähigkeiten von großen Sprachmodellen (LLMs) bei der Codeerstellung bleibt die mehrsprachige Codegenerierung äußerst herausfordernd. Um diesem Problem zu begegnen, zielen wir darauf ab, die Leistungsfähigkeit bestehender Basis-LLMs in Bezug auf mehrsprachige Programmiersprachen (MultiPL) zu verbessern, ohne dabei die beliebtesten Modelle zu verlassen, und dies unter Nutzung begrenzter Rechenressourcen. Wir betrachten MultiPL als einen Sonderfall mehrerer natürlicher Sprachen und schlagen eine Erweiterung von LLMs vor, die auf einem hybriden Mixture-of-Experts (MoE)-Ansatz basiert und als MultiPL-MoE bezeichnet wird. Konkret kombiniert MultiPL-MoE zwei Paare von MoEs, um die Expertenauswahl auf sowohl der Token- als auch der Segment-Ebene zu optimieren. Das Token-Level-MoE basiert auf einer standardisierten Upcycling-MoE-Architektur mit einem gemeinsamen Experten und einer neuartigen Normalisierungsmethode für die Gate-Gewichte, die die finale Fusion mit dem Segment-Level-MoE unterstützt. Das Segment-Level-MoE integriert zwei innovative Konzepte, um die syntaktischen Strukturen und kontextuellen Muster von Programmiersprachen besser zu erfassen: Erstens wird die Eingabetokenfolge mittels eines gleitenden Fensters in mehrere Segmente unterteilt; zweitens wird eine Expertenauswahl-Routing-Strategie angewendet, die es den Experten ermöglicht, die k-besten Segmente auszuwählen. Die Experimente bestätigten die Wirksamkeit von MultiPL-MoE.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MultiPL-MoE: Hybrider Mixture-of-Experts-Ansatz zur Erweiterung großer Sprachmodelle durch mehrsprachige Programmierfähigkeit | Forschungsarbeiten | HyperAI