2ヶ月前

ゼロショット画像対画像変換

Gaurav Parmar; Krishna Kumar Singh; Richard Zhang; Yijun Li; Jingwan Lu; Jun-Yan Zhu
ゼロショット画像対画像変換
要約

大規模なテキストから画像への生成モデルは、多様で高品質な画像を合成する能力を示しています。しかし、これらのモデルを直接実際の画像編集に適用することは、以下の2つの理由から依然として困難です。第一に、ユーザーが入力画像のすべての視覚的な詳細を正確に説明する完璧なテキストプロンプトを作成するのは難しいことです。第二に、既存のモデルは特定の領域で望ましい変更を導入できますが、しばしば入力コンテンツを大きく変更し、不要な領域で予期せぬ変更を引き起こします。本研究では、pix2pix-zeroという画像から画像への翻訳手法を提案します。この手法は、手動でのプロンプト入力を必要とせずに元の画像のコンテンツを保つことができます。まず、テキスト埋め込み空間において望まれる編集方向を見出します。編集後の一般的なコンテンツ構造を保つために、さらにクロスアテンションガイダンス(cross-attention guidance)を提案します。これは、拡散過程を通じて入力画像のクロスアテンションマップを維持することを目指しています。また、当手法はこれらの編集のために追加学習を行う必要がなく、既存の事前学習済みテキストから画像への拡散モデルを使用することができます。私たちは広範囲にわたる実験を行い、当手法が実際の画像編集および合成された画像編集において既存および同時進行の研究よりも優れていることを示しました。

ゼロショット画像対画像変換 | 最新論文 | HyperAI超神経