Command Palette
Search for a command to run...
USO : Génération unifiée guidée par le style et le sujet via l'apprentissage désentrelacé et récompensé
USO : Génération unifiée guidée par le style et le sujet via l'apprentissage désentrelacé et récompensé
Shaojin Wu Mengqi Huang Yufeng Cheng Wenxu Wu Jiahe Tian Yiming Luo Fei Ding Qian He
Résumé
La littérature existante traite généralement la génération pilotée par le style et celle pilotée par le sujet comme deux tâches disjointes : la première privilégie la similarité stylistique, tandis que la seconde insiste sur la cohérence du sujet, entraînant ainsi un antagonisme manifeste. Nous soutenons qu’ils peuvent être unifiés dans un même cadre, car les deux objectifs visent fondamentalement la décomposition et la recomposition indépendantes du contenu et du style, thème central depuis longtemps dans la recherche sur la génération pilotée par le style. À cette fin, nous proposons USO, un modèle unifié d’optimisation personnalisée pour le style et le sujet. Premièrement, nous construisons un grand jeu de données triplet composé d’images de contenu, d’images de style et de leurs images stylisées correspondantes. Deuxièmement, nous introduisons un schéma d’apprentissage déconnecté qui aligne simultanément les caractéristiques stylistiques et décompose le contenu du style grâce à deux objectifs complémentaires : l’apprentissage d’alignement stylistique et l’apprentissage de déconnexion contenu-style. Troisièmement, nous intégrons un paradigme d’apprentissage de récompense stylistique, noté SRL, afin d’améliorer davantage les performances du modèle. Enfin, nous lançons USO-Bench, le premier benchmark évaluant conjointement la similarité stylistique et la fidélité du sujet à travers plusieurs métriques. Des expériences étendues démontrent que USO atteint un niveau d’expertise parmi les modèles open-source sur les deux dimensions de la cohérence du sujet et de la similarité stylistique. Code et modèle : https://github.com/bytedance/USO