2ヶ月前
計算最適な大規模言語モデルの訓練
Jordan Hoffmann; Sebastian Borgeaud; Arthur Mensch; Elena Buchatskaya; Trevor Cai; Eliza Rutherford; Diego de Las Casas; Lisa Anne Hendricks; Johannes Welbl; Aidan Clark; Tom Hennigan; Eric Noland; Katie Millican; George van den Driessche; Bogdan Damoc; Aurelia Guy; Simon Osindero; Karen Simonyan; Erich Elsen; Jack W. Rae; Oriol Vinyals; Laurent Sifre

要約
私たちは、与えられた計算リソースの予算内でトランスフォーマー言語モデルを訓練する際の最適なモデルサイズとトークン数について調査しました。その結果、現在の大規模言語モデルは著しく未学習であることが判明しました。これは、最近の研究が言語モデルのスケーリングに焦点を当てつつ、訓練データの量を一定に保つことに重点を置いているためです。7000万から160億以上のパラメータを持つ400を超える言語モデルを50億から5000億のトークンで訓練することで、計算効率的な訓練においてモデルサイズと訓練トークン数を同等にスケーリングすべきであることがわかりました。つまり、モデルサイズが倍になるたびに訓練トークン数も倍にするべきです。この仮説を検証するために、Gopherと同じ計算リソースの予算を使用しながら70B(700億)パラメータと4倍多いデータを使用して予測された計算効率的なモデルChinchillaを開発しました。Chinchillaは、様々な下流評価タスクにおいてGopher(280B)、GPT-3(175B)、Jurassic-1(178B)、Megatron-Turing NLG(530B)よりも一貫してかつ有意に優れた性能を示しました。これにより、Chinchillaは微調整や推論のために大幅に少ない計算リソースを使用し、下流利用が大いに容易になりました。特に注目すべき点として、ChinchillaはMMLUベンチマークにおいて平均精度67.5%という最先端の成績を達成し、Gopherに対して7%以上の改善を示しています。