2ヶ月前
インスタンスディフュージョン:画像生成のインスタンスレベル制御
Wang, Xudong ; Darrell, Trevor ; Rambhatla, Sai Saketh ; Girdhar, Rohit ; Misra, Ishan

要約
テキストから画像へのディフュージョンモデルは高品質な画像を生成しますが、画像内の個々のインスタンスに対する制御を提供しません。本稿では、テキストから画像へのディフュージョンモデルに精密なインスタンスレベルの制御を追加する「InstanceDiffusion」を紹介します。InstanceDiffusionは、各インスタンスに対して自由形式の言語条件をサポートし、単純な一点、スケッチ、バウンディングボックスや複雑なインスタンスセグメンテーションマスクなど、柔軟な方法でインスタンス位置を指定できるようになっています。また、これらの組み合わせも可能です。我々は、テキストから画像へのモデルにおいて精密なインスタンスレベルの制御を可能にするために3つの主要な変更点を提案しています。まず、「UniFusionブロック」により、テキストから画像へのモデルでのインスタンスレベルの条件設定が可能になります。「ScaleUブロック」は画像の忠実度を向上させます。さらに、「Multi-instance Sampler」は複数のインスタンスに対する生成性能を改善します。InstanceDiffusionは、それぞれの位置条件に対して専門的な最先端モデルを大幅に上回っています。特にCOCOデータセットにおいて、バウンディングボックス入力では以前の最先端技術よりも20.4% AP$_{50}^\text{box}$で優れていますし、マスク入力では25.4% IoUで優れています。