2ヶ月前

LLMの事前学習におけるGrokkingの検出方法:テストなしで記憶から一般化への移行を監視する

Ziyue Li, Chenrui Fan, Tianyi Zhou
LLMの事前学習におけるGrokkingの検出方法:テストなしで記憶から一般化への移行を監視する
要約

日本語訳Grokking(理解の深化)、すなわちテスト性能がトレーニング損失が収束した後も長期間改善し続ける現象は、最近のニューラルネットワークの学習において観測されており、汎化のメカニズムや推論などの新規能力が謎に包まれています。従来の研究では、一般的には小さなモデルを数千エポックにわたっておもちゃや特定のタスクで訓練していましたが、我々は70億パラメータの大規模言語モデル(LLM)、すなわちOLMoEの一回限りの事前学習中のチェックポイントにおける初めてのGrokking研究を行いました。本研究では、トレーニング損失を計算し、数学的な推論、コード生成、常識やドメイン固有の知識検索など多様なベンチマークタスクでの汎化性能を評価しました。本研究は初めて大規模基盤モデルの事前学習中にGrokkingが起こることを確認しました。ただし、異なるデータが非同期的にGrokking段階に入ることがあります。さらに、我々はLLM内部ダイナミクスを調査することでGrokkingによる「汎化能力の出現」を解明しました。具体的には、学習サンプルのパス(すなわち各層での専門家選択)がGrokking中にはランダムかつ個別のものからより構造化され、サンプル間で共有されるものへと進化することを見出しました。また、損失が収束しているにもかかわらずサンプルパスの複雑さが減少することも確認されました。これらの結果は記憶から汎化への転換を示しており、遅延した汎化に関する機械的な説明を提供しています。本研究では、パスウェイ距離と単一パスウェイの複雑さを定量的に測定するための2つの新しい指標を開発しました。これらの指標は多様なダウンストリームタスクでの汎化性能向上を予測する能力を持っています。これらは効率的であり、計算が簡単で、トレーニングデータのみに依存しているため実用的な価値があります。これにより事前学習中にファインチューニングやテストを行うことなく汎化性能を監視することが可能になります。理論的には、より構造化されたパスウェイはモデルの複雑さを減らし、汎化境界を改善することを示しています。読みやすくするために一部補足説明Grokking: 深い理解や内面的な把握という意味で使われますが、ここではニューラルネットワークにおける特定現象として扱っています。OLMoE: One-Pass Large Model Optimization and Evaluation の略称です。専門家選択 (expert choices): 各層でどの専門家(サブネットワーク)を選択するかという決定プロセスのことです。以上の翻訳は内容の正確性と表現の自然さに配慮しつつ、「科学的・技術的」な文章として適切であるよう心掛けました。

LLMの事前学習におけるGrokkingの検出方法:テストなしで記憶から一般化への移行を監視する | 最新論文 | HyperAI超神経