2ヶ月前

MIGC: テキストから画像合成のためのマルチインスタンス生成コントローラー

Zhou, Dewei ; Li, You ; Ma, Fan ; Zhang, Xiaoting ; Yang, Yi
MIGC: テキストから画像合成のためのマルチインスタンス生成コントローラー
要約

私たちは、Multi-Instance Generation (MIG) タスクを提示します。このタスクでは、1つの画像内で複数のインスタンスを多様な制御のもとで同時に生成します。事前に定義された座標とそれに対応する説明が与えられた場合、生成されたインスタンスが指定された位置に正確に配置され、すべてのインスタンスの属性が対応する説明に準拠していることを確認することが求められます。これにより、単一インスタンス生成に関する現在の研究範囲が広がり、より汎用的かつ実用的な次元へと昇華されます。分割統治のアイデアに着想を得て、MIGタスクの課題に対処するための革新的な手法である Multi-Instance Generation Controller (MIGC) を導入しました。まず、MIGタスクをいくつかのサブタスクに分解し、各サブタスクは単一のインスタンスのシェーディング(陰影付け)を扱います。各インスタンスに対する正確なシェーディングを確保するために、インスタンス強化注意機構を導入しました。最後に、すべてのシェーディング済みインスタンスを集約し、安定した拡散 (Stable Diffusion, SD) における複数インスタンスの正確な生成に必要な情報を提供します。MIGタスクでの生成モデルの性能評価のために、COCO-MIGベンチマークと評価パイプラインを提供しています。提案されたCOCO-MIGベンチマークだけでなく、一般的に使用されるさまざまなベンチマークにおいても広範な実験を行いました。評価結果は、数量、位置、属性、相互作用という観点から当社モデルが持つ優れた制御能力を示しています。コードとデモは以下のURLで公開されます: https://migcproject.github.io/