Exécuter ce Notebook Discuter sur Discord

Date

il y a 8 mois

Balises

Texte Vers Image

Vision Par Ordinateur

RTX 5090

URL du document

2509.04545

Licence

其他

GitHub

Tencent-Hunyuan/HunyuanImage-2.1674

1. Introduction au tutoriel

HunyuanImage-2.1 est un modèle de conversion texte-image open source, publié par l'équipe Hunyuan de Tencent en septembre 2025. Il prend en charge la résolution 2K native, possède de puissantes capacités de compréhension sémantique complexe et peut générer avec précision les détails des scènes, les expressions faciales et les actions. Le modèle accepte les entrées en chinois et en anglais et peut générer des images de styles variés, tels que des bandes dessinées et des figurines, tout en assurant un contrôle précis du texte et des détails. Basé sur un encodeur de texte à double canal et des technologies VAE à haute compression, il améliore considérablement l'efficacité de l'entraînement et de l'inférence. Des articles de recherche associés sont disponibles. PromptEnhancer : une approche simple pour améliorer les modèles texte-image via la réécriture des invites de chaîne de pensée .

Ce tutoriel utilise une seule carte graphique RTX PRO 6000 comme ressource de calcul, fournissant deux fonctions : la génération de texte en image et le raffinement d'image pour les tests.

2. Affichage des effets

Génération de texte en image

Affinement de l'image

3. Étapes de l'opération

1. Démarrez le conteneur

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

2. Étapes d'utilisation

1. Génération de texte en image

Description des paramètres :

Utiliser un modèle distillé : l’utilisation d’un modèle distillé générera des résultats plus rapides mais une qualité légèrement inférieure.
Invite : Vous pouvez saisir du texte ici.
Invite négative : une invite négative qui indique à l'IA « de ne pas générer quelque chose ».
Rapport hauteur/largeur : sélectionnez le rapport hauteur/largeur de l'image générée.
Étapes d'inférence : Plus d'étapes = meilleure qualité, vitesse de génération plus lente.
Échelle d'orientation : dans quelle mesure les instructions sont suivies.
Graine : graine.
Utiliser le raffineur : s'il faut utiliser le raffinement de l'image.

2. Affinement de l'image

Description des paramètres :

Invite de raffinement : vous pouvez saisir du texte ici.
Largeur : largeur de l'image de sortie.
Hauteur : hauteur de l'image de sortie.
Étapes de perfectionnement : Affiner les étapes de raisonnement. Plus d'étapes = meilleure qualité, vitesse de génération plus lente.
Échelle d'orientation : dans quelle mesure les instructions sont suivies.
Graine : graine.

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@misc{HunyuanImage-2.1,
  title={HunyuanImage 2.1: An Efficient Diffusion Model for High-Resolution (2K) Text-to-Image Generation},
  author={Tencent Hunyuan Team},
  year={2025},
  howpublished={\url{https://github.com/Tencent-Hunyuan/HunyuanImage-2.1}},
}

Ce notebook est fourni par des utilisateurs de la communauté et est destiné à des fins éducatives et informatives uniquement. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour un examen et un retrait rapides.

Vue d’ensemble de Notebook

Niveau

Débutant

Rubrique

Vision par ordinateur IA générative

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI