Command Palette
Search for a command to run...
USO : Un Modèle Unifié De Génération d'images Axées Sur Le Style Et Le Sujet
Date
Taille
699.93 MB
Licence
Apache 2.0
GitHub
URL du document
1. Introduction au tutoriel

USO, lancé par l'équipe UXO de ByteDance en août 2025, est un framework unifié pour le découplage et la recombinaison de contenu et de style. Il permet de combiner librement n'importe quel thème et style dans n'importe quelle scène afin de générer des images présentant une grande cohérence de sujet, une fidélité stylistique marquée et un rendu naturel. USO construit un vaste ensemble de données de triplets, utilise une méthode d'apprentissage par découplage pour aligner simultanément les caractéristiques stylistiques et séparer le contenu du style, et introduit l'apprentissage par récompense stylistique (SRL) pour optimiser les performances du modèle. USO a publié le test de référence USO-Bench pour évaluer de manière exhaustive la similarité stylistique et la fidélité de sujet. Les expériences montrent qu'USO atteint des performances de pointe parmi les modèles open source, tant en termes de cohérence de sujet que de similarité stylistique. Des articles de recherche associés sont disponibles. USO : Style unifié et génération axée sur le sujet via l'apprentissage démêlé et récompensé .
Les ressources informatiques utilisées dans ce tutoriel sont une seule carte RTX 4090.
2. Affichage des effets
Génération axée sur le thème/l'identité
Si vous souhaitez placer le sujet dans une nouvelle scène, utilisez un langage naturel, comme « Le chien/l'homme/la femme fait… ». Si vous souhaitez simplement transférer le style tout en préservant la mise en page, utilisez des indications, comme « Transférer le style au style de… ». Pour la création de portraits, USO excelle dans la création d'images avec un niveau de détail élevé de la peau. Guide pratique : Pour les représentations à mi-corps, utilisez des gros plans à mi-corps ; utilisez des images en pied lorsque la pose ou le cadrage change significativement.

Une génération axée sur le style
Téléchargez simplement une ou deux images de votre style et utilisez le langage naturel pour créer l'image souhaitée. USO suivra vos instructions et générera des images correspondant au style que vous avez téléchargé.

Génération axée sur le thème du style
USO peut styliser une référence de contenu unique à l'aide d'une ou deux références de style. Pour les builds préservant la mise en page, définissez simplement l'indice sur vide.
Constructions préservant la mise en page

Génération de décalage de mise en page

3. Étapes de l'opération
1. Démarrez le conteneur

2. Étapes d'utilisation
Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.


Paramètres spécifiques :
- Largeur de génération : générer la largeur de l'image.
- Hauteur de génération : la hauteur de l'image générée.
- Conserver la taille de l'entrée : définissez cette option sur Vrai si vous avez uniquement besoin d'une modification de style ou si vous souhaitez conserver la mise en page.
- Options avancées :
- Nombre d'étapes : contrôle le nombre d'itérations dans le processus de génération du modèle de diffusion. Un nombre d'étapes plus élevé améliore théoriquement la qualité de l'image, mais augmente également le temps de génération.
- Guidage : contrôle le degré auquel l’image générée suit le mot d’invite et l’image de référence.
- Taille de référence de contenu : lors du traitement de l'image de référence de contenu, elle peut être mise à l'échelle selon la longueur du côté le plus long spécifié (en conservant le rapport hauteur/largeur) avant l'extraction des fonctionnalités.
- Seed (-1 pour aléatoire) : contrôle l'état initial du générateur de nombres aléatoires.
4. Discussion
🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation
Merci à l'utilisateur Github SuperYang Déploiement de ce tutoriel. Les informations de citation pour ce projet sont les suivantes :
@article{wu2025uso,
title={USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning},
author={Shaojin Wu and Mengqi Huang and Yufeng Cheng and Wenxu Wu and Jiahe Tian and Yiming Luo and Fei Ding and Qian He},
year={2025},
eprint={2508.18966},
archivePrefix={arXiv},
primaryClass={cs.CV},
}Créer de l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.