グロッキング現象
ディープラーニングの分野では、グロッキング現象とは、ニューラル ネットワークのトレーニング プロセスにおける現象を指します。つまり、トレーニング エラーが長期間減衰した後でも良好な一般化が達成される可能性があります。 Grokking 現象の興味深い点は、それが動的な現象であることです。つまり、トレーニングの損失とテストの損失の間のギャップはトレーニングの途中でのみ存在し、学習可能なネットワークは最終的には一般化するため、トレーニングの損失とテストは一致します。損失は両方ともトレーニングの終了時には非常に低くなります。
この現象は、ニューラル ネットワークが初期段階で主にデータのいくつかの基本的な特徴やパターンを学習し、トレーニング損失が急速に減少する可能性があることを意味します。その後の段階では、ネットワークはデータのより深い特性と構造を徐々に理解し始めるため、テスト損失は大幅に減少し始めます。この現象は、ネットワークが単純な特徴学習段階からより複雑な特徴学習段階に変化することを意味する可能性があります。あるいは、ネットワーク学習プロセスにおける何らかの動的な変化を反映している可能性があります。
「怠惰なトレーニング ダイナミクスからリッチなトレーニング ダイナミクスへの移行としてのグロッキング」この論文は、グロッキング現象 (トレーニング損失後にニューラル ネットワークのテスト損失が大幅に低下する) は、最初の「怠惰な」トレーニングからその後の「豊富な」特徴学習への移行によるものであると提案しています。著者らは、2層ネットワークで多項式回帰研究を実施することで、ネットワークが初期特徴によるデータのフィッティングから、より良い一般化を達成するための新しい特徴の学習に切り替わるときにグロッキングが発生することを示しました。彼らは、特徴の学習速度と初期の特徴の調整が、この遅れた一般化の鍵となると考えており、この概念はより複雑なニューラル ネットワークにも適用できる可能性があります。
グロッキング現象は、カーネルから機能学習メカニズムへの移行として見ることができます。これは、トレーニング損失がテスト損失よりも大幅に早く減少するニューラル ネットワークによって特徴付けられます。これは、ネットワークが遅延トレーニング ダイナミクスのフェーズからより豊富な特徴学習モードに移行するときに発生する可能性があります。 Grokking は、カーネル メカニズムから機能学習メカニズムへの移行によってトリガーされることがあります。
参考文献
【1】「怠惰なトレーニング ダイナミクスからリッチなトレーニング ダイナミクスへの移行としてのグロッキング」——ICLR 2024に収録