
要約
大規模言語モデル(LLM)のスケーリングは性能の向上に顕著な効果をもたらすが、それに伴い計算コストが著しく増大するという課題がある。これに対して、Mixture-of-Experts(MoE)モデルは、計算リソースの増加に比例して容量を拡張できる効率的な代替手段を提供する。しかし、MoEモデルを初期から訓練する際には、過学習やルーティングの不安定性といった課題が存在する。本研究では、事前学習済みの密結合型(dense)モデルのチェックポイントを活用する効率的な訓練手法を提案する。この手法により、Llama 3-8Bを基盤として、通常の事前学習に要する計算量の1%未満で、8エキスパート・Top-2ルーティングのMoEモデルを訓練可能となった。本手法は、学術ベンチマークにおける下流タスク性能を向上させ、MMLUにおける0ショット精度で2%の向上を達成した。また、訓練中にModel FLOPs Utilization(MFU)が46.8%に達し、提案フレームワークの高い計算効率を示した。さらに、NeMoにおけるオンラインアップサイクリング(upcycling)機能を統合することで、事前学習済み重みのシームレスな再利用を実現し、高容量MoEモデルの低コスト開発を可能にした。