Command Palette
Search for a command to run...
Tony Bonnaire Raphaël Urfin Giulio Biroli Marc Mezard

要約
拡散モデルは、広範な生成タスクにおいて顕著な成功を収めている。その一方で、訓練データの記憶を防ぎ、一般化を可能にするメカニズムの理解は、重要な課題である。本研究では、一般化から記憶化への遷移において、学習ダイナミクスが果たす役割に着目する。広範な実験と理論的分析を通じて、二つの異なる時間スケールを同定した。一つはモデルが高品質なサンプルを生成し始める初期の時間領域であり、もう一つは記憶化が顕在化する以降の後期の時間領域である。特に重要なのは、初期の時間スケールが訓練データセットのサイズに比例して増加するのに対し、後期の時間スケールは一定であるということである。この結果、訓練時間の範囲内ではモデルが効果的に一般化する時間窓が拡大する一方で、その範囲を超えて学習を継続すると強力な記憶化が生じる。そして、モデル依存の閾値を超えて初めて、無限の学習時間において過学習が消失する。これらの結果は、学習ダイナミクスに内在する動的正則化の一種を示しており、過パラメータ化された設定においても記憶化を回避可能であることを示している。本研究の主張は、現実的および合成データセットに対する標準的なU-Netアーキテクチャを用いた数値実験および、高次元極限において解析可能なランダム特徴モデルを用いた理論的分析によって裏付けられている。