LaCon : Diffusion avec Contraintes Tardives pour la Synthèse d'Images Guidée et Dirigée

Les modèles de diffusion ont démontré des capacités impressionnantes en matière de génération d'images photo-réalistes et créatives. Pour offrir plus de contrôlabilité dans le processus de génération, les études existantes, qualifiées dans cet article de méthodes à contrainte précoce, utilisent des conditions supplémentaires et les intègrent aux modèles de diffusion pré-entraînés. Plus précisément, certaines d'entre elles adoptent des modules spécifiques à la condition pour traiter séparément ces conditions, où elles peinent à généraliser sur d'autres conditions. Bien que des études ultérieures présentent des solutions unifiées pour résoudre le problème de généralisation, celles-ci nécessitent également des ressources supplémentaires pour être mises en œuvre, par exemple des entrées additionnelles ou une optimisation des paramètres, où l'on attend davantage de flexibilité et d'efficacité pour réaliser une synthèse d'images guidée pilotable. Dans cet article, nous présentons un paradigme alternatif, appelé Diffusion à Contrainte Tardive (LaCon), permettant d'intégrer simultanément diverses conditions dans les modèles de diffusion pré-entraînés. Plus particulièrement, LaCon établit une correspondance entre la condition externe et les caractéristiques internes des modèles de diffusion, et utilise cette correspondance pour intégrer la condition cible, guidant ainsi le processus d'échantillonnage afin de produire des résultats sur mesure. Les résultats expérimentaux sur l'ensemble de données COCO illustrent l'efficacité et la capacité supérieure de généralisation de LaCon sous diverses conditions et configurations. Les études ablatives examinent les fonctionnalités des différents composants de LaCon et mettent en lumière son grand potentiel pour servir de solution efficace offrant une contrôlabilité flexible aux modèles de diffusion.