HyperAIHyperAI

Command Palette

Search for a command to run...

MITが開発したAIスケーリング法則ガイド、小規模モデルで大規模モデルの性能を高精度予測

MITとMIT-IBM Watson AIラボの研究チームが、大規模言語モデル(LLM)の性能を予測するための統合的ガイドライン「スケーリング法のための旅人ガイド(2025)」を発表した。この研究は、高コストな大規模モデルの開発において、計算リソースを最適に使うために、小さなモデルから大きなモデルの性能を推定する「スケーリング法」の信頼性を高めるものだ。研究は国際機械学習会議(ICML 2025)で発表され、ジェイコブ・アンドリアス教授らが主導した。 スケーリング法とは、パラメータ数や学習トークン数といった要因とモデルの性能(損失)の関係を数学的にモデル化し、大規模モデルの性能を、低コストで訓練された小さなモデルから予測する手法である。しかし、過去の研究は個別に作成されたスケーリング法が多く、一貫性や再現性に欠けていた。今回の研究では、40のモデルファミリー(Pythia、LLaMA、OPT、GPTなど)から485の事前学習済みモデルを収集し、190万件以上の性能指標(損失や下流タスク精度)を統合。これにより、1,000以上ものスケーリング法を構築・比較し、予測精度の高さを検証した。 研究の結果、予測の誤差(絶対相対誤差、ARE)は、ランダムなシードノイズの影響で4%程度が限界だが、20%以内の誤差でも意思決定には十分有効であることが判明。特に、中間の学習チェックポイント(訓練途中のモデル)を活用すると、予測精度が向上する。一方、100億トークン未満の初期データはノイズが大きく、除外すべきである。また、5つの異なるサイズのモデルを用意することで、スケーリング法の信頼性が飛躍的に向上する。 さらに、大規模モデルの一部を30%程度まで訓練してから予測に使うことで、コストを大幅に削減可能。予算が限られている場合、似たアーキテクチャを持つ他のモデルファミリーのスケーリング法パラメータを借りることも有効だが、エンコーダ-デコーダ型モデルには不向きである。 驚きの発見として、大規模モデルのスケーリング法を用いて、小規模モデルの性能も予測可能であることが示された。これは「小規模モデルは大規模モデルとは本質的に異なる」という従来の仮説に反するもので、モデルのスケーリングは連続的である可能性を示唆している。 今後は、モデルの推論時間(思考時間)におけるスケーリング法の構築にも注力する予定。ユーザーごとに異なるクエリに対応するためには、実行時の計算量を予測し、最適な「思考の深さ」を決めることが重要だと研究チームは強調している。このガイドラインは、リソースに制約のある研究者にも、効率的かつ正確なモデル開発を可能にする画期的なツールとなる。

関連リンク

MITが開発したAIスケーリング法則ガイド、小規模モデルで大規模モデルの性能を高精度予測 | 人気の記事 | HyperAI超神経