HyperAI

Démonstration De Génération D'images Haute Fidélité InfiniteYou

Exemples d'effets

1. Introduction au tutoriel

InfiniteYou, abrégé en InfU, est un framework de génération d'images préservant l'identité basé sur des transformateurs de diffusion (tels que FLUX) lancé par l'équipe de création intelligente de ByteDance en 2025. Grâce à une technologie de pointe, il est capable de maintenir la cohérence de l'identité de la personne tout en générant des images, résolvant les lacunes des méthodes existantes en matière de similarité d'identité, d'alignement texte-image et de qualité de génération.

En tant que l'un des premiers cadres robustes dans ce domaine utilisant des transformateurs diffus (DiT), InfU aborde systématiquement trois problèmes fondamentaux des méthodes existantes : une similarité d'identité insuffisante, un biais d'alignement image-texte et une mauvaise qualité de génération et des performances esthétiques médiocres. Son innovation principale, InfuseNet, injecte des fonctionnalités d’identité dans le modèle basé sur DiT via des connexions résiduelles, améliorant considérablement la fidélité de l’identité tout en maintenant les capacités de génération. Une stratégie de formation en plusieurs étapes comprenant une pré-formation et un réglage fin supervisé (SFT) avec des données synthétiques multi-échantillons mono-personne (SPMS) est adoptée pour optimiser davantage l'alignement image-texte, améliorer la qualité de génération et atténuer efficacement l'effet de duplication du visage. Des expériences approfondies montrent qu'InfU atteint des performances de pointe, surpassant les méthodes de base existantes dans tous les aspects. Sa conception plug-and-play assure la compatibilité avec diverses méthodes existantes, apportant des contributions techniques importantes à la communauté universitaire.

Ce tutoriel utilise InfiniteYou-FLUX v1.0 comme démonstration et la ressource de puissance de calcul est A6000.

Le tutoriel propose 2 versions de modèles :

Version InfiniteYouVersion du modèleLe modèle de base utilisé pour la formationCaractéristiques
InfiniteYou-FLUX v1.0aes_stage2FLUX.1-devLe modèle de deuxième étape après réglage fin supervisé (SFT) présente un meilleur alignement image-texte et de meilleures performances esthétiques
InfiniteYou-FLUX v1.0sim_stage1FLUX.1-devLe modèle de première étape avant le réglage fin supervisé fournit une similarité de caractéristiques d'identité plus élevée

2. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

Si « Modèle » n'est pas affiché, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Une fois que vous entrez sur le site Web, vous pouvez commencer à utiliser

❗️Conseils d’utilisation importants :

  • Version du modèle:Utiliser par défaut aes_stage2 Pour obtenir un meilleur alignement des images et du texte et des effets esthétiques. Pour une plus grande similarité d'ID, essayez sim_stage1 .
  • Hyperparamètres utiles:En général, aucun autre réglage n'est nécessaire. Si nécessaire, essayez une taille légèrement plus grande --infusenet_guidance_start(Par exemple 0.1)(droite sim_stage1 est particulièrement efficace). Si l'effet n'est toujours pas satisfaisant, essayez une taille légèrement plus petite. --infusenet_conditioning_scale(Par exemple 0.9).
  • LoRA en option:realism(réaliste) et anti-blur(Anti-flou). Cochez la case correspondante pour l'activer. Il s’agit de fonctionnalités facultatives qui n’ont pas été utilisées dans le document.
  • Conseils sur le genre:Si le genre généré n'est pas celui attendu, veuillez ajouter des mots spécifiques dans l'invite de texte, tels que « un homme », « une femme », etc. Ce projet encourage l'utilisation d'un langage inclusif et respectueux.

Comment utiliser

Échange et discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓