23日前

大規模言語モデルにおける2次最適化の可能性：フル・ガウス・ニュートン法を用いた研究

Natalie Abreu Nikhil Vyas Sham Kakade Depen Morwani

要約

大規模な言語モデル（LLM）の事前学習を高速化する最近の取り組みは、2次構造を活用する計算効率の高い近似手法に注目が集まっている。これにより、大規模な学習において重要な疑問が浮かび上がる：このような近似によって、どれほどの性能が損なわれるのか。この疑問を検証するため、最大1億5000万パラメータのトランスフォーマー・モデルに、完全なガウス・ニュートン（GN）前処理を適用することで、反復計算の実用的な上界を確立した。実験の結果、従来の最適化手法（SOAPやMuonなど）と比較して、完全なGN更新は5.4倍の反復回数削減を実現し、顕著な性能向上を示した。さらに、層間の相互作用情報を無視する精密な層別GN前処理器が、完全なGN法とほぼ同等の性能を達成することを発見した。これらの結果から、以下の3点が示唆される。（1）GN近似は前処理において非常に有効であり、収束速度の観点から高次の損失項が必須であるとは限らない；（2）層別ヘッシアン構造に十分な情報が含まれており、その大部分の潜在的な性能向上を達成可能である；（3）現在の近似手法と理想化された層別オラクルとの間に、顕著な性能ギャップが存在する。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

大規模言語モデルにおける2次最適化の可能性：フル・ガウス・ニュートン法を用いた研究

Natalie Abreu Nikhil Vyas Sham Kakade Depen Morwani

要約

AI で AI を構築

Hyper Newsletters