Command Palette
Search for a command to run...
最適データ混合のスケーリング則
最適データ混合のスケーリング則
Mustafa Shukor Louis Bethune Dan Busbridge David Grangier Enrico Fini Alaaeldin El-Nouby Pierre Ablin
概要
大規模基盤モデルは通常、複数のドメインからのデータで訓練されます。ここで、各ドメインの使用割合であるデータ混合がモデルの性能に重要な役割を果たします。従来のアプローチでは、この混合比率を選択するために試行錯誤に頼っていますが、大規模な事前学習ではこれが実用的ではなくなります。本研究では、スケーリング則を使用して任意のターゲットドメインに対する最適なデータ混合比率を決定する体系的な方法を提案します。当方針は、サイズ N のモデルが D トークンと特定のドメイン重みベクトル h を使用して訓練された場合の損失を正確に予測します。さらに、スケーリング則の普遍性を検証するために、大規模言語モデル(LLM)、ネイティブマルチモーダルモデル(NMM)、および大規模ビジョンモデル(LVM)の事前学習という3つの異なる大規模設定においてその予測力を示しています。これらのスケーリング則は新しいデータ混合比率や異なるスケールにも外挿可能であり、少数の大規模トレーニング実行によってパラメータを正確に推定し、より大きなスケールや未見のドメイン重みでの性能を推定することができます。スケーリング則は与えられたトレーニング予算(N,D)のもとで任意のターゲットドメインに対する最適なドメイン重みを導き出すことができ、高コストな試行錯誤手法に対する理論的な代替手段を提供します。