Command Palette

Search for a command to run...

23日前

大規模言語モデルにおける2次最適化の可能性:フル・ガウス・ニュートン法を用いた研究

Natalie Abreu Nikhil Vyas Sham Kakade Depen Morwani

大規模言語モデルにおける2次最適化の可能性:フル・ガウス・ニュートン法を用いた研究

要約

大規模な言語モデル(LLM)の事前学習を高速化する最近の取り組みは、2次構造を活用する計算効率の高い近似手法に注目が集まっている。これにより、大規模な学習において重要な疑問が浮かび上がる:このような近似によって、どれほどの性能が損なわれるのか。この疑問を検証するため、最大1億5000万パラメータのトランスフォーマー・モデルに、完全なガウス・ニュートン(GN)前処理を適用することで、反復計算の実用的な上界を確立した。実験の結果、従来の最適化手法(SOAPやMuonなど)と比較して、完全なGN更新は5.4倍の反復回数削減を実現し、顕著な性能向上を示した。さらに、層間の相互作用情報を無視する精密な層別GN前処理器が、完全なGN法とほぼ同等の性能を達成することを発見した。これらの結果から、以下の3点が示唆される。(1)GN近似は前処理において非常に有効であり、収束速度の観点から高次の損失項が必須であるとは限らない;(2)層別ヘッシアン構造に十分な情報が含まれており、その大部分の潜在的な性能向上を達成可能である;(3)現在の近似手法と理想化された層別オラクルとの間に、顕著な性能ギャップが存在する。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています