Swinv2-Imagen: Hierarchische Vision Transformer Diffusionsmodelle für Text-zu-Bild-Generierung

In jüngster Zeit haben Diffusionsmodelle in mehreren Studien herausragende Leistungen bei Aufgaben der Text-zu-Bild-Synthese gezeigt und damit neue Forschungsmöglichkeiten für die Bildgenerierung eröffnet. Google’s Imagen folgt dieser Forschungstendenz und übertrifft DALL-E 2 als bestes Modell für die Text-zu-Bild-Generierung. Allerdings nutzt Imagen lediglich ein T5-Sprachmodell zur Textverarbeitung, das nicht gewährleistet, dass semantische Informationen des Textes effektiv erlernt werden. Darüber hinaus ist der von Imagen verwendete Efficient UNet nicht die optimale Wahl für die Bildverarbeitung. Um diese Probleme zu adressieren, stellen wir Swinv2-Imagen vor – ein neuartiges Text-zu-Bild-Diffusionsmodell, das auf einem hierarchischen Visual Transformer und einem Szenengraphen basiert, der eine semantische Anordnung berücksichtigt. In dem vorgeschlagenen Modell werden Merkmalsvektoren von Entitäten und Beziehungen extrahiert und in das Diffusionsmodell integriert, wodurch die Qualität der generierten Bilder signifikant verbessert wird. Zudem führen wir eine auf Swin-Transformer basierende UNet-Architektur, namens Swinv2-Unet, ein, die Probleme, die aus den CNN-Faltungsoperationen resultieren, effektiv löst. Um die Leistung des vorgeschlagenen Modells umfassend zu bewerten, wurden umfangreiche Experimente mit drei realen Datensätzen durchgeführt: MSCOCO, CUB und MM-CelebA-HQ. Die experimentellen Ergebnisse zeigen, dass das vorgeschlagene Swinv2-Imagen-Modell mehrere gängige state-of-the-art-Methoden übertrifft.