Command Palette
Search for a command to run...
MOSAIC : Génération personnalisée multi-sujets par alignement et désenchevêtrement conscient de la correspondance
Dong She Siming Fu Mushui Liu Qiaoqiao Jin Hualiang Wang Mu Liu Jidong Jiang

Résumé
La génération personnalisée à plusieurs sujets soulève des défis uniques en matière de fidélité identitaire et de cohérence sémantique lors de la synthèse d’images conditionnées par plusieurs sujets de référence. Les méthodes existantes souffrent fréquemment d’un mélange d’identités et d’une fuite d’attributs en raison d’un modélisation insuffisante des interactions entre différents sujets au sein d’un espace de représentation partagé. Nous proposons MOSAIC, un cadre centré sur la représentation qui repense la génération à plusieurs sujets grâce à une correspondance sémantique explicite et une désentrelacement orthogonal des caractéristiques. Notre idée clé est que la génération à plusieurs sujets exige une alignement sémantique précis au niveau de la représentation — savoir exactement quelles régions de l’image générée doivent s’attacher à quelles parties de chaque sujet de référence. Pour permettre cela, nous introduisons SemAlign-MS, un jeu de données soigneusement annoté offrant des correspondances sémantiques fines entre plusieurs sujets de référence et les images cibles, jusqu’ici inédites dans ce domaine. Fondé sur cette base, nous proposons une perte d’attention basée sur la correspondance sémantique afin d’imposer un alignement sémantique point par point précis, garantissant une forte cohérence entre chaque sujet de référence et ses régions assignées. En outre, nous développons une perte de désentrelacement à plusieurs références, qui pousse les différents sujets vers des sous-espaces d’attention orthogonaux, empêchant ainsi l’interférence des caractéristiques tout en préservant les caractéristiques identitaires individuelles. Des expériences étendues démontrent que MOSAIC atteint des performances de pointe sur plusieurs benchmarks. Notamment, alors que les méthodes existantes se dégradent généralement au-delà de trois sujets, MOSAIC maintient une haute fidélité avec quatre ou plus de sujets de référence, ouvrant ainsi de nouvelles perspectives pour des applications complexes de synthèse à plusieurs sujets.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.