MIGC : Contrôleur de Génération Multi-Instance pour la Synthèse d'Images à partir de Texte

Nous présentons une tâche de Génération Multi-Instance (MIG), consistant à générer simultanément plusieurs instances avec des contrôles divers dans une seule image. Étant donné un ensemble de coordonnées prédéfinies et leurs descriptions correspondantes, la tâche consiste à s'assurer que les instances générées se trouvent exactement aux emplacements désignés et que toutes les attributs des instances correspondent à leur description respective. Cela élargit le champ des recherches actuelles sur la génération mono-instance, en l'élevant à une dimension plus polyvalente et pratique. Inspirés par l'idée de diviser pour mieux régner, nous introduisons une approche innovante nommée Contrôleur de Génération Multi-Instance (MIGC) pour relever les défis posés par la tâche MIG.Initialement, nous décomposons la tâche MIG en plusieurs sous-tâches, chacune impliquant l'ombrage d'une seule instance. Pour garantir un ombrage précis de chaque instance, nous introduisons un mécanisme d'attention d'amélioration d'instance. Enfin, nous agrégons toutes les instances ombragées afin de fournir les informations nécessaires pour générer avec précision plusieurs instances dans la diffusion stable (SD).Pour évaluer les performances des modèles de génération sur la tâche MIG, nous fournissons un benchmark COCO-MIG ainsi qu'un pipeline d'évaluation. De nombreuses expériences ont été menées sur le benchmark COCO-MIG proposé, ainsi que sur divers benchmarks couramment utilisés. Les résultats de l'évaluation mettent en lumière les capacités exceptionnelles de notre modèle en termes de quantité, de position, d'attribut et d'interaction.Le code et des démonstrations seront rendus disponibles à l'adresse suivante : https://migcproject.github.io/.