Command Palette
Search for a command to run...
UMO : Extension de la cohérence multi-identité pour la personnalisation d'images par récompense de correspondance
UMO : Extension de la cohérence multi-identité pour la personnalisation d'images par récompense de correspondance
Yufeng Cheng Wenxu Wu Shaojin Wu Mengqi Huang Fei Ding Qian He
Résumé
Les progrès récents dans la personnalisation d’images révèlent un large éventail de perspectives d’application grâce à des capacités de personnalisation renforcées. Toutefois, étant donné que l’être humain est particulièrement sensible aux visages, un défi majeur persiste : préserver une identité cohérente tout en évitant toute confusion d’identité lorsqu’on utilise plusieurs images de référence, ce qui limite la capacité d’évolutivité des modèles de personnalisation. Pour relever ce défi, nous proposons UMO, un cadre unifié d’optimisation multi-identité, conçu pour préserver fidèlement l’identité et réduire la confusion d’identité tout en offrant une meilleure évolutivité. Grâce au paradigme « correspondance multi-vers-multi », UMO reformule la génération multi-identité comme un problème d’optimisation d’affectation globale, et permet de tirer pleinement parti de la cohérence multi-identité pour les méthodes existantes de personnalisation d’images, en s’appuyant sur l’apprentissage par renforcement appliqué aux modèles de diffusion. Pour faciliter l’entraînement d’UMO, nous avons développé un jeu de données de personnalisation évolutif comprenant des images de référence multiples, constitué à la fois de données synthétisées et réelles. En outre, nous proposons une nouvelle métrique pour mesurer la confusion d’identité. Des expériences étendues montrent qu’UMO améliore de manière significative la cohérence d’identité tout en réduisant la confusion d’identité sur plusieurs méthodes de personnalisation d’images, établissant ainsi un nouveau record parmi les méthodes open-source dans le domaine de la préservation d’identité. Code et modèle : https://github.com/bytedance/UMO