HyperAI

要約

大規模言語モデル（LLM）は優れたコード生成能力を有する一方で、多言語コード生成は依然として極めて困難な課題である。本研究では、計算リソースを制限した状況下でも、最も普及している基盤LLMの性能を維持しつつ、多言語プログラミング（MultiPL）能力を向上させることを目的とする。MultiPLは複数の自然言語処理の特殊なケースであると捉え、ハイブリッド混合専門家（MoE）アーキテクチャを用いたMultiPL拡張型LLM、すなわちMultiPL-MoEを提案する。具体的には、トークンレベルとセグメントレベルの両方で専門家選択を最適化する2つのペアリングされたMoEを統合する。トークンレベルのMoEは、共有専門家を備えた標準的なアップサイクリングMoE構造であり、新規のゲート重み正規化手法を導入することで、セグメントレベルのMoEとの最終統合を効果的に支援する。一方、セグメントレベルのMoEは、プログラミング言語の構文構造および文脈パターンをより適切に捉えるための2つの革新的な設計を採用している。第一に、入力トークン列をスライディングウィンドウによって複数のセグメントに分割する手法を用いる。第二に、専門家が上位k個のセグメントを選択する専門家選択ルーティング戦略を導入する。実験の結果、MultiPL-MoEの有効性が明確に示された。

MultiPL-MoE：ハイブリッドMixture-of-Expertsによる大規模言語モデルの多プログラミング・多言語拡張

Qing Wang Xue Han Jiahui Wang Lehao Xing Qian Hu Lianlian Zhang Chao Deng Junlan Feng

要約

AI で AI を構築

Hyper Newsletters

Command Palette

MultiPL-MoE：ハイブリッドMixture-of-Expertsによる大規模言語モデルの多プログラミング・多言語拡張

Qing Wang Xue Han Jiahui Wang Lehao Xing Qian Hu Lianlian Zhang Chao Deng Junlan Feng

要約

AI で AI を構築

Hyper Newsletters