HyperAIHyperAI

Command Palette

Search for a command to run...

Llama 3 が MoE に出会う:効率的なアップサイクリング

Aditya Vavre Ethan He Dennis Liu Zijie Yan June Yang Nima Tajbakhsh Ashwath Aithal

概要

大規模言語モデル(LLM)のスケーリングは性能の向上に顕著な効果をもたらすが、それに伴い計算コストが著しく増大するという課題がある。これに対して、Mixture-of-Experts(MoE)モデルは、計算リソースの増加に比例して容量を拡張できる効率的な代替手段を提供する。しかし、MoEモデルを初期から訓練する際には、過学習やルーティングの不安定性といった課題が存在する。本研究では、事前学習済みの密結合型(dense)モデルのチェックポイントを活用する効率的な訓練手法を提案する。この手法により、Llama 3-8Bを基盤として、通常の事前学習に要する計算量の1%未満で、8エキスパート・Top-2ルーティングのMoEモデルを訓練可能となった。本手法は、学術ベンチマークにおける下流タスク性能を向上させ、MMLUにおける0ショット精度で2%の向上を達成した。また、訓練中にModel FLOPs Utilization(MFU)が46.8%に達し、提案フレームワークの高い計算効率を示した。さらに、NeMoにおけるオンラインアップサイクリング(upcycling)機能を統合することで、事前学習済み重みのシームレスな再利用を実現し、高容量MoEモデルの低コスト開発を可能にした。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています