Command Palette
Search for a command to run...
Natalie Abreu Nikhil Vyas Sham Kakade Depen Morwani

要約
大規模な言語モデル(LLM)の事前学習を高速化する最近の取り組みは、2次構造を活用する計算効率の高い近似手法に注目が集まっている。これにより、大規模な学習において重要な疑問が浮かび上がる:このような近似によって、どれほどの性能が損なわれるのか。この疑問を検証するため、最大1億5000万パラメータのトランスフォーマー・モデルに、完全なガウス・ニュートン(GN)前処理を適用することで、反復計算の実用的な上界を確立した。実験の結果、従来の最適化手法(SOAPやMuonなど)と比較して、完全なGN更新は5.4倍の反復回数削減を実現し、顕著な性能向上を示した。さらに、層間の相互作用情報を無視する精密な層別GN前処理器が、完全なGN法とほぼ同等の性能を達成することを発見した。これらの結果から、以下の3点が示唆される。(1)GN近似は前処理において非常に有効であり、収束速度の観点から高次の損失項が必須であるとは限らない;(2)層別ヘッシアン構造に十分な情報が含まれており、その大部分の潜在的な性能向上を達成可能である;(3)現在の近似手法と理想化された層別オラクルとの間に、顕著な性能ギャップが存在する。