
要約
拡散モデルの優れた生成能力にもかかわらず、従来の拡散モデルに基づくスタイル転送手法は、推論段階での最適化(例えばスタイルのファインチューニングやテキストインバージョン)を必要とし、計算に時間がかかる場合や、大規模拡散モデルの生成能力を十分に活用できないという課題がある。これらの問題を解決するために、最適化を一切行わず、事前に学習された大規模拡散モデルに基づく新たな芸術的スタイル転送手法を提案する。具体的には、クロスアテンション機構の動作様式を模倣する形で、自己アテンション層の特徴量を操作し、生成プロセスにおいてコンテンツ画像のキーおよびバリューをスタイル画像のものに置き換える。このアプローチにより、以下のような望ましい特性が得られる:1)類似したスタイルが類似した画像パッチに転送されることで、コンテンツの保持が可能となる;2)コンテンツ画像とスタイル画像の間の局所的なテクスチャ(例:エッジ)の類似性に基づいたスタイルの転送が実現できる。さらに、元のコンテンツの破壊を軽減するため、クエリの保持とアテンション温度のスケーリングを導入し、スタイルの色が正しく転送されない(色の不調和)問題に対処するため、初期潜在変数に対する適応的インスタンス正規化(AdaIN)を用いる。実験結果から、本手法が従来のスタイル転送および拡散モデルベースのスタイル転送の最先端手法をいずれも上回ることを示した。