2ヶ月前

プラグアンドプレイ拡散特徴量を用いたテキスト駆動型画像変換

Narek Tumanyan; Michal Geyer; Shai Bagon; Tali Dekel
プラグアンドプレイ拡散特徴量を用いたテキスト駆動型画像変換
要約

大規模なテキストから画像への生成モデルは、生成AIの進化において革命的な突破をもたらしました。これらのモデルにより、非常に複雑な視覚的概念を表現する多様な画像を合成することが可能になりました。しかし、実世界のコンテンツ作成タスクにこのようなモデルを利用するために重要な課題は、ユーザーが生成されたコンテンツに対するコントロールを提供することです。本論文では、テキストから画像への合成を画像から画像への翻訳の領域へと拡張する新しいフレームワークを提案します。具体的には、ガイド画像と目標テキストプロンプトが与えられた場合、当手法は事前学習済みのテキストから画像へのディフュージョンモデルの力を活用し、目標テキストに準拠しながらソース画像の意味的なレイアウトを保った新たな画像を生成します。特に、我々はモデル内の空間特徴量およびその自己注意機構を操作することで、生成される構造に対する微細な制御が達成できることを観察し、実証的に示しています。これにより、ガイド画像から抽出した特徴量が直接的に目標画像の生成プロセスに注入される単純かつ効果的なアプローチが得られます。この方法は訓練や微調整を必要とせず、リアルなガイド画像でも生成されたガイド画像でも適用可能です。我々は多様なテキストガイダンスによる画像翻訳タスクで高品質な結果を得ることを示しています。これらのタスクには、スケッチやラフ画、アニメーションを現実的な画像に翻訳すること、与えられた画像中のオブジェクトのクラスや外見の変更、全体的な質感(照明や色調)の修正などが含まれます。

プラグアンドプレイ拡散特徴量を用いたテキスト駆動型画像変換 | 最新論文 | HyperAI超神経