2ヶ月前
BoxDiff: ボックス制約付きの学習不要ディフュージョンによるテキストから画像の合成
Xie, Jinheng ; Li, Yuexiang ; Huang, Yawen ; Liu, Haozhe ; Zhang, Wentian ; Zheng, Yefeng ; Shou, Mike Zheng

要約
最近のテキストから画像への生成モデルは、高品質な画像を生成する驚異的な能力を示しています。しかし、研究者たちは主にテキストプロンプトのみを使用した画像合成の方法に焦点を当ててきました。一部の研究では他のモダリティを条件として使用することを探求していますが、それには多くのペアデータ(例えば、ボックス/マスク-画像ペア)と微調整にかかる時間が必要です。このようなペアデータの取得は時間と労力がかかる上、閉じられたセットに限定されるため、オープンワールドでの応用において潜在的なボトルネックとなる可能性があります。本論文では、ユーザーが提供する最も単純な条件形式、例えばボックスやスクリブルに注目します。上述の問題を緩和するために、訓練を必要としない方法を提案し、与えられた空間条件に基づいて合成された画像内のオブジェクトとコンテクストを制御します。具体的には、Inner-Box(内側ボックス)、Outer-Box(外側ボックス)、およびCorner Constraints(コーナー制約)という3つの空間制約が設計され、拡散モデルのデノイジングステップに無縫接続で統合されます。これにより追加の訓練や大量のアノテーション付きレイアウトデータは不要となります。広範な実験結果は、提案された制約が画像内で何をどのように表示するかを制御しつつ、拡散モデルが高忠実度と多様な概念カバレッジを持つ合成能力を維持できることを示しています。コードは公開されており、https://github.com/showlab/BoxDiff から入手可能です。