2ヶ月前

画像条件付き拡散モデルのファインチューニングは思っているよりも簡単です

Gonzalo Martin Garcia, Karim Abou Zeid, Christian Schmidt, Daan de Geus, Alexander Hermans, Bastian Leibe
画像条件付き拡散モデルのファインチューニングは思っているよりも簡単です
要約

最近の研究では、大規模な拡散モデルを単眼深度推定器として再利用し、深度推定を画像条件付き画像生成タスクとして扱うことで、非常に高精度な結果が得られることを示しています。提案されたモデルは最先端の成果を達成しましたが、多段階推論による高い計算負荷が多くのシナリオでの使用を制限していました。本論文では、これまで注目されていなかった推論パイプラインの欠陥が認識される非効率性の原因であったことを示します。固定モデルは最良の従来報告された構成と同等の性能を発揮しながら、200倍以上の高速性を実現しています。下流タスクの性能向上のために、タスク固有の損失関数を使用して単段階モデル上でエンドツーエンド微調整を行い、他のすべての拡散ベースの深度および法線推定モデルよりも優れた決定的なモデルを得ました。一般的なゼロショットベンチマークにおいて、この微調整プロトコルはStable Diffusion(安定拡散)にも直接適用可能であり、現在の最先端の拡散ベースの深度および法線推定モデルと同等またはそれ以上の性能を達成することから、先行研究で導かれたいくつかの結論に疑問が投げかけられています。