HyperAIHyperAI
il y a 2 mois

BoxDiff : Synthèse d'images à partir de texte avec diffusion contrainte par des boîtes sans entraînement

Xie, Jinheng ; Li, Yuexiang ; Huang, Yawen ; Liu, Haozhe ; Zhang, Wentian ; Zheng, Yefeng ; Shou, Mike Zheng
BoxDiff : Synthèse d'images à partir de texte avec diffusion contrainte par des boîtes sans entraînement
Résumé

Les modèles de diffusion récents basés sur le texte pour générer des images ont démontré une capacité étonnante à produire des images de haute qualité. Cependant, les chercheurs se sont principalement concentrés sur la synthèse d'images à partir de seules instructions textuelles. Bien que certains travaux aient exploré l'utilisation d'autres modalités comme conditions, ils nécessitent des données appariées considérables, par exemple des paires boîte/masque-image, ainsi que du temps de réglage fin (fine-tuning). Étant donné que l'acquisition de telles données appariées est chronophage et exige beaucoup de travail, et qu'elle est limitée à un ensemble fermé, cela peut potentiellement devenir une bouteille d'étranglement pour les applications dans un monde ouvert. Cet article se concentre sur la forme la plus simple des conditions fournies par l'utilisateur, par exemple des boîtes ou des griffonnages. Pour atténuer le problème mentionné précédemment, nous proposons une méthode sans apprentissage pour contrôler les objets et les contextes dans les images synthétisées en respectant les conditions spatiales données. Plus précisément, trois contraintes spatiales ont été conçues : Inner-Box (boîte interne), Outer-Box (boîte externe) et Corner Constraints (contraintes d'angle), qui sont intégrées de manière fluide dans l'étape de débruitage des modèles de diffusion, sans nécessiter d'apprentissage supplémentaire ni de vastes quantités de données annotées.Des résultats expérimentaux étendus montrent que les contraintes proposées peuvent contrôler ce qui doit être présenté et où dans les images tout en conservant la capacité des modèles de diffusion à synthétiser avec une fidélité élevée et une couverture conceptuelle diversifiée. Le code source est disponible publiquement sur https://github.com/showlab/BoxDiff.