HyperAIHyperAI

USO : Un Modèle Unifié De Génération d'images Axées Sur Le Style Et Le Sujet

1. Introduction au tutoriel

Construire

USO est un framework unifié pour le découplage et la réorganisation du contenu et du style, lancé par l'équipe UXO de Bytedance en août 2025. Il permet de combiner librement n'importe quel sujet avec n'importe quel style dans n'importe quelle scène afin de générer des images présentant une cohérence élevée entre les sujets, une fidélité stylistique élevée et un rendu naturel et non plastique. USO construit un jeu de données triplets à grande échelle, adopte un schéma d'apprentissage découplé pour aligner simultanément les caractéristiques stylistiques et séparer le contenu et le style, et introduit l'apprentissage par récompense stylistique (SRL) pour améliorer encore les performances du modèle. USO a publié le benchmark USO-Bench pour une évaluation complète de la similarité stylistique et de la fidélité des sujets. Les expériences montrent qu'USO atteint le meilleur niveau des modèles open source en termes de cohérence stylistique et de similarité stylistique. Les résultats de l'article sont les suivants :USO : Style unifié et génération axée sur le sujet via l'apprentissage démêlé et récompensé".

Les ressources informatiques utilisées dans ce tutoriel sont une seule carte RTX 4090.

2. Affichage des effets

Génération axée sur le thème/l'identité

Si vous souhaitez placer le sujet dans une nouvelle scène, utilisez un langage naturel, comme « Le chien/l'homme/la femme fait… ». Si vous souhaitez simplement transférer le style tout en préservant la mise en page, utilisez des indications, comme « Transférer le style au style de… ». Pour la création de portraits, USO excelle dans la création d'images avec un niveau de détail élevé de la peau. Guide pratique : Pour les représentations à mi-corps, utilisez des gros plans à mi-corps ; utilisez des images en pied lorsque la pose ou le cadrage change significativement.

Une génération axée sur le style

Téléchargez simplement une ou deux images de votre style et utilisez le langage naturel pour créer l'image souhaitée. USO suivra vos instructions et générera des images correspondant au style que vous avez téléchargé.

Génération axée sur le thème du style

USO peut styliser une référence de contenu unique à l'aide d'une ou deux références de style. Pour les builds préservant la mise en page, définissez simplement l'indice sur vide.

Constructions préservant la mise en page

Génération de décalage de mise en page

3. Étapes de l'opération

1. Démarrez le conteneur

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Paramètres spécifiques :

  • Largeur de génération : générer la largeur de l'image.
  • Hauteur de génération : la hauteur de l'image générée.
  • Conserver la taille de l'entrée : définissez cette option sur Vrai si vous avez uniquement besoin d'une modification de style ou si vous souhaitez conserver la mise en page.
  • Options avancées :
    • Nombre d'étapes : contrôle le nombre d'itérations dans le processus de génération du modèle de diffusion. Un nombre d'étapes plus élevé améliore théoriquement la qualité de l'image, mais augmente également le temps de génération.
    • Guidage : contrôle le degré auquel l’image générée suit le mot d’invite et l’image de référence.
    • Taille de référence de contenu : lors du traitement de l'image de référence de contenu, elle peut être mise à l'échelle selon la longueur du côté le plus long spécifié (en conservant le rapport hauteur/largeur) avant l'extraction des fonctionnalités.
    • Seed (-1 pour aléatoire) : contrôle l'état initial du générateur de nombres aléatoires.

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Merci à l'utilisateur Github SuperYang  Déploiement de ce tutoriel. Les informations de citation pour ce projet sont les suivantes :

@article{wu2025uso,
    title={USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning},
    author={Shaojin Wu and Mengqi Huang and Yufeng Cheng and Wenxu Wu and Jiahe Tian and Yiming Luo and Fei Ding and Qian He},
    year={2025},
    eprint={2508.18966},
    archivePrefix={arXiv},
    primaryClass={cs.CV},
}
USO : Un Modèle Unifié De Génération d'images Axées Sur Le Style Et Le Sujet | Tutoriels | HyperAI