HyperAI

Tencent HunyuanDiT Wenshengtu Demo

Hunyuan-DiT: Ein leistungsstarker Diffusionstransformator mit mehreren Auflösungen und ein feinkörniges chinesisches Verständnismodell

Bei diesem Modell handelt es sich um die erste zweisprachige chinesisch-englische DiT-Architektur, ein Text-zu-Bild-Generierungsmodell auf Basis des Diffusion-Transformators, das über feinkörnige Verständnisfähigkeiten in Chinesisch und Englisch verfügt. Um Hunyuan DiT zu erstellen, hat das Forschungsteam die Transformer-Struktur, den Textcodierer und die Positionscodierung sorgfältig neu gestaltet. Zur Aktualisierung und Auswertung der Daten wurde eine vollständige Datenpipeline erstellt, die Unterstützung bei Iterationen der Modelloptimierung bietet. Um ein detailliertes Textverständnis zu erreichen, wurde in diesem Projekt ein multimodales Großsprachenmodell trainiert, um die Textbeschreibung von Bildern zu optimieren. Letztendlich ist Hunyuan DiT in der Lage, mehrere Gesprächsrunden mit Benutzern zu führen und dabei Bilder kontextbezogen zu generieren und zu verfeinern.

🎉 Hauptfunktionen von Hunyuan-DiT

Hunyuan-DiT ist ein Diffusionsmodell im latenten Raum, wie in der folgenden Abbildung dargestellt. Basierend auf dem latenten Diffusionsmodell wird ein vortrainierter Variational Autoencoder (VAE) verwendet, um das Bild in einen niedrigdimensionalen latenten Raum zu komprimieren, und das Diffusionsmodell wird trainiert, um die Datenverteilung zu lernen. Das Diffusionsmodell wird mithilfe eines Transformators parametrisiert. Zum Kodieren von Textaufforderungen nutzt das Modell eine Kombination aus vortrainierten zweisprachigen (Englisch und Chinesisch) CLIP- und mehrsprachigen T5-Kodierern.


Mehrrunden-Textgraphenkonstruktion

Das Verstehen natürlicher Sprachbefehle und die Teilnahme an mehrstufigen Interaktionen mit Benutzern sind für die KI äußerst wichtig. Das Text-zu-Bild-System kann dabei helfen, einen dynamischen, iterativen kreativen Prozess aufzubauen, der die Ideen der Benutzer Schritt für Schritt in die Realität umsetzt. In diesem Abschnitt erläutern wir im Detail, wie Hunyuan-DiT die Fähigkeit erhält, mehrstufige Dialoge und Bilder zu generieren, MLM darin zu trainieren, mehrstufige Benutzerdialoge zu verstehen und neue Textaufforderungen für die Bildgenerierung auszugeben.


Leistung der Modellgenerierung

  • Lange Texteingabe

📈 Vergleich mit bestehenden Modellen

Um die Generierungsfähigkeiten von HunyuanDiT und anderen Modellen umfassend vergleichen zu können, erstellte das Forschungsteam einen vierdimensionalen Testsatz, bei dem mehr als 50 professionelle Gutachter die Leistung in Bereichen wie Text-Bild-Konsistenz, Ausschluss von KI-Artefakten, Themenklarheit und Ästhetik beurteilten.

ModellOpen SourceText-Bild-Konsistenz (%)Ausschluss von KI-Artefakten (%)Themenklarheit (%)Ästhetik (%)Insgesamt (%)
SDXL64.360.691.176.342.7
PixArt-α68.360.993.277.545.5
Spielplatz 2.571.970.894.983.354.3
SD 377.169.394.682.556.7
MidJourney v673.580.293.587.263.3
DALL-E 383.980.396.589.471.0
Hunyuan-DiT74.274.395.486.659.0

Tutorial-Nutzung

1. Klonen und starten Sie den Container

  • [Hinweis] Da das Modell groß ist, kann es nach dem erfolgreichen Start des Containers etwa 2 bis 3 Minuten dauern, bis das Modell geladen ist und verwendet werden kann.

2. Benutzeroberfläche

Je größer die Anzahl der Abtastschritte, desto besser der Generierungseffekt, desto länger aber auch die Generierungszeit.默认的采样步数生成时间在一分钟左右