17日前
ソフトトランケーション:高精度スコア推定を実現するスコアベース拡散モデルにおけるユニバーサルなトレーニング手法
Dongjun Kim, Seungjae Shin, Kyungwoo Song, Wanmo Kang, Il-Chul Moon

要約
最近の拡散モデル(diffusion models)における進展により、画像生成タスクにおいて最先端の性能が達成されている。しかし、過去の研究における実証的結果から、密度推定(density estimation)とサンプル生成(sample generation)の性能の間に逆相関関係が存在することが示唆されている。本研究では、十分な実証的証拠を用いて、この逆相関が生じる理由を解明している。すなわち、密度推定の性能は主に小さな拡散時間(diffusion time)に大きく寄与するのに対し、サンプル生成の性能は主に大きな拡散時間に依存しているためである。一方で、拡散時間全体にわたりスコアネットワーク(score network)を適切に学習することは困難であり、その理由は各拡散時間における損失(loss)スケールが著しく不均衡であるためである。こうした課題を克服するため、本研究では、拡散モデルに普遍的に適用可能な新しい学習手法「ソフトトレクエーション(Soft Truncation)」を提案する。この手法は、従来の固定かつ静的な截断ハイパーパラメータ(truncation hyperparameter)を確率変数に柔軟に置き換えることで、学習の安定性と性能を向上させる。実験結果において、ソフトトレクエーションはCIFAR-10、CelebA、CelebA-HQ 256×256、STL-10の各データセットにおいて、最先端の性能を達成した。