
要約
私たちは FreeMorph を紹介します。これは、異なる意味やレイアウトを持つ入力に対応する最初のチューニングフリーの画像モーフィング手法です。既存の手法は、事前学習された拡散モデルの微調整に依存しており、時間制約や意味/レイアウトの不一致によって制限されていますが、FreeMorph はインスタンスごとの訓練を必要とせずに高忠実度の画像モーフィングを提供します。これらの手法は効率性と潜在能力を持っていますが、マルチステップデノイジングプロセスの非線形性や事前学習された拡散モデルから引き継がれるバイアスにより、高品質な結果を維持することが困難となっています。本論文では、これらの課題を解決するために FreeMorph を導入し、2つの重要な革新を取り入れています。1) 最初に、入力画像からの明示的なガイダンスを組み込むために自己注意モジュールを変更するガイダンス対応型球面補間設計を提案します。これによりアイデンティティロスを解消し、生成されるシーケンス全体で方向性のある移行を確保します。2) さらに、各入力画像から派生した自己注意モジュールをブレンドするステップ指向の変動傾向を導入します。これにより両方の入力を尊重しながら制御され且つ一貫性のある移行が達成されます。私たちの広範な評価結果は、FreeMorph が既存手法よりも優れており、10倍〜50倍速く、画像モーフィングにおける新たな最先端技術であることを示しています。