AI研究者が効率的にLLMを訓練するためのスケーリング法の構築ガイドをMITが公開
大規模言語モデル(LLM)の訓練は莫大なコストを要するため、性能を最大化しつつ予算を最適化するための戦略が不可欠です。MITとMIT-IBM Watson AIラボの研究チームは、数千ものスケーリング法を体系的に分析し、効率的なLLM訓練のための実用的ガイドラインを発表しました。スケーリング法とは、小さなモデルの性能をもとに、大きなモデルの性能を予測する数学的モデルであり、訓練にかかるコストを削減する鍵となります。 研究チームは、Pythia、OPT、LLaMA、Bloom、GPTなど40のモデルファミリーから485種類の事前学習済みモデルを収集し、190万件以上の性能メトリクス(損失値や下流タスクの精度)を含む大規模データセットを構築。このデータをもとに、1,000以上ものスケーリング法を構築・比較し、予測精度に影響を与える要因を明らかにしました。 その結果、予測精度を高めるための具体的な指針が得られました。まず、予算と目標精度を明確にすることが重要。予測誤差(ARE)が4%程度まで改善可能だが、20%以内でも意思決定には十分有効です。また、中間訓練ステップ(チェックポイント)を活用すると予測精度が向上し、特に100億トークン未満の初期データはノイズが大きいため除外すべきです。モデル数を5つ程度、サイズを広く分散して訓練することで、スケーリング法の信頼性が高まります。 さらに、目標モデルの30%程度まで部分的に訓練したモデルを使っても、十分な予測が可能。予算が限られている場合は、類似アーキテクチャの既存モデルのスケーリングパラメータを借用する戦略も有効です(エンコーダ・デコーダ型には不向き)。また、大規模モデルと小規模モデルのスケーリング法は本質的に異なるわけではないことが判明。モデルファミリー間で3つのハイパーパラメータが性能変動の大部分を説明でき、統一的な理解が可能であることが示されました。 研究チームは、今後は「推論時間のスケーリング法」にも注力。ユーザーごとのクエリに応じてモデルがどれだけ「考える」必要があるかを予測する仕組みは、実運用においてさらに重要になると指摘。本研究は、MIT-IBM Watson AIラボとスローン研究フェローシップの支援を受けて行われました。