Command Palette
Search for a command to run...
Shangyuan Tong Nanye Ma Saining Xie Tommi Jaakkola

要約
最先端のフローモデルは優れた品質を達成するが、その代わりに遅く反復的なサンプリングを必要とする。これを高速化するため、事前に学習された教師モデルからフローマップを蒸留(distillation)する手法が用いられる。従来の手法では、外部データセットからのサンプリングが必要となる。しかし、本研究では、このようなデータ依存性が根本的なリスクである「教師モデルとデータの不一致(Teacher-Data Mismatch)」を引き起こす可能性があると指摘する。静的なデータセットは、教師モデルの全生成能力を十分に表現しているとは限らず、むしろ誤った表現を提供する可能性があるためである。このことから、フローマップ蒸留においてデータへの依存が本当に必要なのかを疑問視する。本研究では、データに依存しない代替手法を提案する。この手法は、教師モデルが構成上必ず従うと保証される事前分布(prior distribution)からのみサンプリングを行う。これにより、不一致のリスクを完全に回避できる。このアプローチの実用性を示すために、教師モデルのサンプリング経路を予測する原理的なフレームワークを導入する。このフレームワークは、自身の誤差が累積するのを積極的に補正しながら、高忠実度を維持するように学習する。提案手法は、すべてのデータ依存型手法を上回り、大幅な性能向上により新たな最先端水準を確立した。具体的には、SiT-XL/2+REPAから蒸留を行う場合、256×256のImageNetにおいて1ステップのサンプリングでFID 1.45、512×512ではFID 1.49を達成した。本研究が、生成モデルの高速化に向けたより堅牢な枠組みを確立し、データを用いないフローマップ蒸留の広範な採用を促進することを期待する。