
要約
拡散モデル(Diffusion models)は、画像、音声、動画生成の分野において顕著な進展を遂げたが、その生成プロセスは反復的なサンプリングに依存しており、速度が遅いという課題を抱えていた。この制約を克服するために、本研究では「一貫性モデル(Consistency models)」という新たなモデル族を提案する。このモデルは、ノイズをデータ空間に直接写像する方式により、高品質なサンプルを生成する。設計上、一度のステップで高速な生成が可能でありながら、複数ステップのサンプリングも可能で、計算リソースを増やしてサンプル品質を向上させる選択肢を提供する。さらに、これらのタスクに明示的な学習を必要とせずに、画像の穴埋め(inpainting)、色付け(colorization)、超解像(super-resolution)など、ゼロショットでのデータ編集を実現する。一貫性モデルは、事前に学習された拡散モデルを蒸留(distillation)することで学習可能であり、あるいは独立した生成モデルとして完全に別個に学習することも可能である。広範な実験を通じて、一ステップおよび少数ステップのサンプリングにおいて、従来の拡散モデルの蒸留手法を上回ることを実証した。特に、CIFAR-10では1ステップ生成でFIDスコア3.55、ImageNet 64x64では6.20という、新たな最先端の成績を達成した。また、独立して学習された一貫性モデルは、CIFAR-10、ImageNet 64x64、LSUN 256x256といった標準ベンチマークにおいて、既存の1ステップ型かつ敵対的でない生成モデルを上回る性能を発揮し、新たな生成モデルの族としての可能性を示した。