HyperAI

Démo Tencent HunyuanDiT Wenshengtu

Hunyuan-DiT : un puissant transformateur de diffusion multi-résolution et un modèle de compréhension du chinois à granularité fine

Ce modèle est la première architecture DiT bilingue chinois-anglais, un modèle de génération de texte en image basé sur le transformateur de diffusion, qui possède des capacités de compréhension à granularité fine en chinois et en anglais. Afin de construire Hunyuan DiT, l'équipe de recherche a soigneusement repensé la structure du transformateur, l'encodeur de texte et l'encodage positionnel. Un pipeline de données complet a été construit pour mettre à jour et évaluer les données, fournissant une assistance pour les itérations d'optimisation du modèle. Pour parvenir à une compréhension fine du texte, ce projet a formé un modèle de langage multimodal de grande taille pour optimiser la description textuelle des images. En fin de compte, Hunyuan DiT est capable d'avoir plusieurs séries de conversations avec les utilisateurs, générant et affinant les images en fonction du contexte.

🎉 Principales caractéristiques du Hunyuan-DiT

Hunyuan-DiT est un modèle de diffusion dans l'espace latent, comme le montre la figure ci-dessous. Sur la base du modèle de diffusion latente, un autoencodeur variationnel pré-entraîné (VAE) est utilisé pour compresser l'image dans un espace latent de faible dimension, et le modèle de diffusion est formé pour apprendre la distribution des données. Le modèle de diffusion est paramétré à l'aide d'un transformateur. Pour encoder les invites textuelles, le modèle s'appuie sur une combinaison d'encodeurs CLIP bilingues (anglais et chinois) pré-entraînés et d'encodeurs T5 multilingues.


Construction d'un graphique textuel multi-tours

Comprendre les commandes en langage naturel et s’engager dans des interactions à plusieurs tours avec les utilisateurs sont extrêmement importants pour l’intelligence artificielle. Le système de conversion de texte en image peut aider à créer un processus créatif dynamique et itératif, transformant les idées des utilisateurs en réalité étape par étape. Dans cette section, nous détaillerons comment doter Hunyuan-DiT de la capacité d'effectuer un dialogue multi-tours et une génération d'images, de former mlm à comprendre les dialogues utilisateur multi-tours et de générer de nouvelles invites de texte pour la génération d'images.


Performances de génération de modèles

  • Saisie de texte long

📈 Comparaison avec les modèles existants

Afin de comparer de manière exhaustive les capacités de génération de HunyuanDiT et d'autres modèles, l'équipe de recherche a construit un ensemble de tests en quatre dimensions, qui a invité plus de 50 évaluateurs professionnels à évaluer les performances dans des domaines tels que la cohérence texte-image, l'exclusion des artefacts d'IA, la clarté du sujet et l'esthétique.

ModèleOpen SourceCohérence texte-image (%)Hors artefacts d'IA (%)Clarté du sujet (%)Esthétique (%)Globalement (%)
SDXL64.360.691.176.342.7
PixArt-α68.360.993.277.545.5
Aire de jeux 2.571.970.894.983.354.3
SD 377.169.394.682.556.7
MidJourney v673.580.293.587.263.3
DALL-E 383.980.396.589.471.0
Hunyuan-DiT74.274.395.486.659.0

Utilisation du tutoriel

1. Cloner et démarrer le conteneur

  • [Remarque] Étant donné que le modèle est volumineux, il peut falloir environ 2 à 3 minutes après le démarrage réussi du conteneur pour attendre que le modèle soit chargé avant de pouvoir l'utiliser.

2. Interface utilisateur

Plus le nombre d'étapes d'échantillonnage est élevé, meilleur est l'effet de génération, mais plus le temps de génération est long.默认的采样步数生成时间在一分钟左右