HyperAIHyperAI

Command Palette

Search for a command to run...

計算最適な大規模言語モデルの訓練

概要

私たちは、与えられた計算リソースの予算内でトランスフォーマー言語モデルを訓練する際の最適なモデルサイズとトークン数について調査しました。その結果、現在の大規模言語モデルは著しく未学習であることが判明しました。これは、最近の研究が言語モデルのスケーリングに焦点を当てつつ、訓練データの量を一定に保つことに重点を置いているためです。7000万から160億以上のパラメータを持つ400を超える言語モデルを50億から5000億のトークンで訓練することで、計算効率的な訓練においてモデルサイズと訓練トークン数を同等にスケーリングすべきであることがわかりました。つまり、モデルサイズが倍になるたびに訓練トークン数も倍にするべきです。この仮説を検証するために、Gopherと同じ計算リソースの予算を使用しながら70B(700億)パラメータと4倍多いデータを使用して予測された計算効率的なモデルChinchillaを開発しました。Chinchillaは、様々な下流評価タスクにおいてGopher(280B)、GPT-3(175B)、Jurassic-1(178B)、Megatron-Turing NLG(530B)よりも一貫してかつ有意に優れた性能を示しました。これにより、Chinchillaは微調整や推論のために大幅に少ない計算リソースを使用し、下流利用が大いに容易になりました。特に注目すべき点として、ChinchillaはMMLUベンチマークにおいて平均精度67.5%という最先端の成績を達成し、Gopherに対して7%以上の改善を示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています