Command Palette
Search for a command to run...
USO : Génération unifiée orientée style et sujet par apprentissage désentrelacé et par récompense
Shaojin Wu Mengqi Huang Yufeng Cheng Wenxu Wu Jiahe Tian Yiming Luo Fei Ding Qian He

Résumé
La littérature existante traite généralement la génération pilotée par le style et celle pilotée par le sujet comme deux tâches distinctes : la première privilégie la similarité stylistique, tandis que la seconde insiste sur la cohérence du sujet, entraînant ainsi une opposition apparente. Nous soutenons que ces deux objectifs peuvent être unifiés dans un cadre unique, car ils visent tous deux, au fond, la désentrelacement et la recomposition du contenu et du style — un thème central dans la recherche sur la génération pilotée par le style. À cette fin, nous proposons USO, un modèle unifié d'optimisation personnalisée pour le style et le sujet. Premièrement, nous construisons un grand jeu de données triplet composé d’images de contenu, d’images stylistiques et de leurs correspondantes images stylisées. Deuxièmement, nous introduisons un schéma d’apprentissage désentrelacé qui aligne simultanément les caractéristiques stylistiques et sépare le contenu du style grâce à deux objectifs complémentaires : l’entraînement à l’alignement stylistique et l’entraînement à la désentrelacement contenu-style. Troisièmement, nous intégrons un paradigme d’apprentissage par récompense stylistique, noté SRL, afin d’approfondir encore les performances du modèle. Enfin, nous lançons USO-Bench, le premier benchmark à évaluer conjointement la similarité stylistique et la fidélité du sujet selon plusieurs métriques. Des expériences étendues montrent que USO atteint des performances de pointe parmi les modèles open source, tant en matière de cohérence du sujet que de similarité stylistique. Code et modèle : https://github.com/bytedance/USO
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.