LayoutDiffusion : Modèle de diffusion contrôlable pour la génération d'images à partir de layouts

Récemment, les modèles de diffusion ont connu un grand succès dans la synthèse d'images.Cependant, lorsqu'il s'agit de la génération d'images à partir de dispositions, où une image comporte souvent une scène complexe avec plusieurs objets, comment exercer un contrôle fort sur la carte de disposition globale et chaque objet détaillé reste une tâche difficile. Dans cet article, nous proposons un modèle de diffusion nommé LayoutDiffusion qui peut obtenir une qualité de génération supérieure et une contrôlabilité plus grande que les travaux précédents.Pour surmonter la fusion multimodale difficile entre l'image et la disposition, nous proposons de construire un patch d'image structurée avec des informations régionales et de transformer cette image patchée en une disposition spéciale pour fusionner avec la disposition normale sous une forme unifiée. De plus, nous introduisons le module de fusion des dispositions (Layout Fusion Module - LFM) et l'attention croisée sensible aux objets (Object-aware Cross Attention - OaCA) pour modéliser les relations entre plusieurs objets. Ces modules sont conçus pour être sensibles aux objets et aux positions, permettant ainsi un contrôle précis des informations spatiales liées.Des expériences approfondies montrent que notre LayoutDiffusion surpassent les méthodes SOTA précédentes sur FID et CAS avec des améliorations relatives de 46,35 % et 26,70 % sur COCO-stuff, et 44,29 % et 41,82 % sur VG. Le code est disponible à l'adresse suivante : https://github.com/ZGCTroy/LayoutDiffusion.