XVerse : Contrôle cohérent de l'identité et des attributs sémantiques de plusieurs sujets par modulation DiT

Pour atteindre un contrôle fin des identités de sujets et des attributs sémantiques (pose, style, éclairage) dans la génération d'images à partir de texte, en particulier pour plusieurs sujets, on constate souvent une dégradation de l'éditabilité et de la cohérence des Transformers de diffusion (DiTs). De nombreuses approches introduisent des artefacts ou souffrent d'un emmêlement des attributs. Afin de surmonter ces défis, nous proposons un nouveau modèle de génération contrôlée multi-sujet appelé XVerse. En transformant les images de référence en décalages pour la modulation spécifique aux jetons du flux textuel, XVerse permet un contrôle précis et indépendant pour chaque sujet spécifique sans perturber les latents ou les caractéristiques de l'image. Par conséquent, XVerse offre une synthèse d'images multi-sujet à haute fidélité, éditable avec un contrôle robuste sur les caractéristiques individuelles et les attributs sémantiques des sujets. Cette avancée améliore considérablement les capacités de génération de scènes personnalisées et complexes.