HyperAIHyperAI
il y a 2 mois

InstanceDiffusion : Contrôle au niveau de l'instance pour la génération d'images

Wang, Xudong ; Darrell, Trevor ; Rambhatla, Sai Saketh ; Girdhar, Rohit ; Misra, Ishan
InstanceDiffusion : Contrôle au niveau de l'instance pour la génération d'images
Résumé

Les modèles de diffusion texte-à-image produisent des images de haute qualité mais ne permettent pas un contrôle individuel sur les instances présentes dans l'image. Nous présentons InstanceDiffusion, une méthode qui ajoute un contrôle précis au niveau des instances aux modèles de diffusion texte-à-image. InstanceDiffusion prend en charge des conditions linguistiques libres pour chaque instance et offre des moyens flexibles de spécifier les emplacements des instances, tels que des points simples, des griffonnages, des boîtes englobantes ou des masques de segmentation d'instances complexes, ainsi que leurs combinaisons. Nous proposons trois modifications majeures aux modèles texte-à-image afin d'activer le contrôle précis au niveau des instances. Notre bloc UniFusion permet d'intégrer les conditions au niveau des instances dans les modèles texte-à-image, le bloc ScaleU améliore la fidélité de l'image, et notre échantillonneur multi-instances optimise la génération pour plusieurs instances. InstanceDiffusion dépasse considérablement les modèles spécialisés de pointe pour chaque condition d'emplacement. Notamment, sur le jeu de données COCO, nous surpassons l'état de l'art précédent avec une amélioration de 20,4 % en AP$_{50}^\text{box}$ pour les entrées en boîtes englobantes et de 25,4 % en IoU pour les entrées en masques.

InstanceDiffusion : Contrôle au niveau de l'instance pour la génération d'images | Articles de recherche récents | HyperAI