HyperAIHyperAI

Command Palette

Search for a command to run...

USO : Un Modèle Unifié De Génération d'images Axées Sur Le Style Et Le Sujet

Date

il y a 5 mois

Taille

699.93 MB

Licence

Apache 2.0

URL du document

2508.18966

1. Introduction au tutoriel

Construire

USO, lancé par l'équipe UXO de ByteDance en août 2025, est un framework unifié pour le découplage et la recombinaison de contenu et de style. Il permet de combiner librement n'importe quel thème et style dans n'importe quelle scène afin de générer des images présentant une grande cohérence de sujet, une fidélité stylistique marquée et un rendu naturel. USO construit un vaste ensemble de données de triplets, utilise une méthode d'apprentissage par découplage pour aligner simultanément les caractéristiques stylistiques et séparer le contenu du style, et introduit l'apprentissage par récompense stylistique (SRL) pour optimiser les performances du modèle. USO a publié le test de référence USO-Bench pour évaluer de manière exhaustive la similarité stylistique et la fidélité de sujet. Les expériences montrent qu'USO atteint des performances de pointe parmi les modèles open source, tant en termes de cohérence de sujet que de similarité stylistique. Des articles de recherche associés sont disponibles. USO : Style unifié et génération axée sur le sujet via l'apprentissage démêlé et récompensé .

Les ressources informatiques utilisées dans ce tutoriel sont une seule carte RTX 4090.

2. Affichage des effets

Génération axée sur le thème/l'identité

Si vous souhaitez placer le sujet dans une nouvelle scène, utilisez un langage naturel, comme « Le chien/l'homme/la femme fait… ». Si vous souhaitez simplement transférer le style tout en préservant la mise en page, utilisez des indications, comme « Transférer le style au style de… ». Pour la création de portraits, USO excelle dans la création d'images avec un niveau de détail élevé de la peau. Guide pratique : Pour les représentations à mi-corps, utilisez des gros plans à mi-corps ; utilisez des images en pied lorsque la pose ou le cadrage change significativement.

Une génération axée sur le style

Téléchargez simplement une ou deux images de votre style et utilisez le langage naturel pour créer l'image souhaitée. USO suivra vos instructions et générera des images correspondant au style que vous avez téléchargé.

Génération axée sur le thème du style

USO peut styliser une référence de contenu unique à l'aide d'une ou deux références de style. Pour les builds préservant la mise en page, définissez simplement l'indice sur vide.

Constructions préservant la mise en page

Génération de décalage de mise en page

3. Étapes de l'opération

1. Démarrez le conteneur

2. Étapes d'utilisation

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Paramètres spécifiques :

  • Largeur de génération : générer la largeur de l'image.
  • Hauteur de génération : la hauteur de l'image générée.
  • Conserver la taille de l'entrée : définissez cette option sur Vrai si vous avez uniquement besoin d'une modification de style ou si vous souhaitez conserver la mise en page.
  • Options avancées :
    • Nombre d'étapes : contrôle le nombre d'itérations dans le processus de génération du modèle de diffusion. Un nombre d'étapes plus élevé améliore théoriquement la qualité de l'image, mais augmente également le temps de génération.
    • Guidage : contrôle le degré auquel l’image générée suit le mot d’invite et l’image de référence.
    • Taille de référence de contenu : lors du traitement de l'image de référence de contenu, elle peut être mise à l'échelle selon la longueur du côté le plus long spécifié (en conservant le rapport hauteur/largeur) avant l'extraction des fonctionnalités.
    • Seed (-1 pour aléatoire) : contrôle l'état initial du générateur de nombres aléatoires.

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Merci à l'utilisateur Github SuperYang  Déploiement de ce tutoriel. Les informations de citation pour ce projet sont les suivantes :

@article{wu2025uso,
    title={USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning},
    author={Shaojin Wu and Mengqi Huang and Yufeng Cheng and Wenxu Wu and Jiahe Tian and Yiming Luo and Fei Ding and Qian He},
    year={2025},
    eprint={2508.18966},
    archivePrefix={arXiv},
    primaryClass={cs.CV},
}

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp