Command Palette

Search for a command to run...

2日前

MultiPL-MoE:ハイブリッドMixture-of-Expertsによる大規模言語モデルの多プログラミング・多言語拡張

Qing Wang Xue Han Jiahui Wang Lehao Xing Qian Hu Lianlian Zhang Chao Deng Junlan Feng

MultiPL-MoE:ハイブリッドMixture-of-Expertsによる大規模言語モデルの多プログラミング・多言語拡張

要約

大規模言語モデル(LLM)は優れたコード生成能力を有する一方で、多言語コード生成は依然として極めて困難な課題である。本研究では、計算リソースを制限した状況下でも、最も普及している基盤LLMの性能を維持しつつ、多言語プログラミング(MultiPL)能力を向上させることを目的とする。MultiPLは複数の自然言語処理の特殊なケースであると捉え、ハイブリッド混合専門家(MoE)アーキテクチャを用いたMultiPL拡張型LLM、すなわちMultiPL-MoEを提案する。具体的には、トークンレベルとセグメントレベルの両方で専門家選択を最適化する2つのペアリングされたMoEを統合する。トークンレベルのMoEは、共有専門家を備えた標準的なアップサイクリングMoE構造であり、新規のゲート重み正規化手法を導入することで、セグメントレベルのMoEとの最終統合を効果的に支援する。一方、セグメントレベルのMoEは、プログラミング言語の構文構造および文脈パターンをより適切に捉えるための2つの革新的な設計を採用している。第一に、入力トークン列をスライディングウィンドウによって複数のセグメントに分割する手法を用いる。第二に、専門家が上位k個のセグメントを選択する専門家選択ルーティング戦略を導入する。実験の結果、MultiPL-MoEの有効性が明確に示された。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
MultiPL-MoE:ハイブリッドMixture-of-Expertsによる大規模言語モデルの多プログラミング・多言語拡張 | 論文 | HyperAI超神経