HyperAIHyperAI

Command Palette

Search for a command to run...

Swinv2-Imagen: Hierarchische Vision Transformer Diffusionsmodelle für Text-zu-Bild-Generierung

Ruijun Li Weihua Li Yi Yang Hanyu Wei Jianhua Jiang Quan Bai

Zusammenfassung

In jüngster Zeit haben Diffusionsmodelle in mehreren Studien herausragende Leistungen bei Aufgaben der Text-zu-Bild-Synthese gezeigt und damit neue Forschungsmöglichkeiten für die Bildgenerierung eröffnet. Google’s Imagen folgt dieser Forschungstendenz und übertrifft DALL-E 2 als bestes Modell für die Text-zu-Bild-Generierung. Allerdings nutzt Imagen lediglich ein T5-Sprachmodell zur Textverarbeitung, das nicht gewährleistet, dass semantische Informationen des Textes effektiv erlernt werden. Darüber hinaus ist der von Imagen verwendete Efficient UNet nicht die optimale Wahl für die Bildverarbeitung. Um diese Probleme zu adressieren, stellen wir Swinv2-Imagen vor – ein neuartiges Text-zu-Bild-Diffusionsmodell, das auf einem hierarchischen Visual Transformer und einem Szenengraphen basiert, der eine semantische Anordnung berücksichtigt. In dem vorgeschlagenen Modell werden Merkmalsvektoren von Entitäten und Beziehungen extrahiert und in das Diffusionsmodell integriert, wodurch die Qualität der generierten Bilder signifikant verbessert wird. Zudem führen wir eine auf Swin-Transformer basierende UNet-Architektur, namens Swinv2-Unet, ein, die Probleme, die aus den CNN-Faltungsoperationen resultieren, effektiv löst. Um die Leistung des vorgeschlagenen Modells umfassend zu bewerten, wurden umfangreiche Experimente mit drei realen Datensätzen durchgeführt: MSCOCO, CUB und MM-CelebA-HQ. Die experimentellen Ergebnisse zeigen, dass das vorgeschlagene Swinv2-Imagen-Modell mehrere gängige state-of-the-art-Methoden übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp