
要約
拡散モデルは画像生成において驚異的な品質を達成していますが、その代償として多くの時間ステップが必要となる反復的なノイズ除去が高忠実度の画像生成に求められます。私たちは、ターゲットデータの初期再構築が不正確であるために蓄積される再構築誤差によって、ノイズ除去プロセスが決定的に制限されると主張します。これにより、出力の品質が低下し、収束速度も遅くなる可能性があります。この問題に対処するため、私たちは生成をターゲットドメインへと導く補償サンプリングを提案します。U-Netとして実装された補償項を導入することで、訓練中には微々たる計算負荷しか追加せず、推論時にはオプションで使用することができます。当方のアプローチは柔軟性があり、CIFAR-10、CelebA、CelebA-HQ、FFHQ-256、FSGなどのベンチマークデータセットを使用して無条件生成、顔領域の欠損修復(インペイント)、顔の被覆除去(デオクルージョン)への応用を示しています。当方のアプローチは一貫して画像品質において最先端の結果を達成しており、訓練中のノイズ除去プロセスの収束速度を最大で1桁速くすることが可能です。