vor 3 Monaten

VICTR: Visual Information Captured Text Representation für Text-to-Image Multimodale Aufgaben

Soyeon Caren Han, Siqu Long, Siwen Luo, Kunze Wang, Josiah Poon

Abstract

Text-to-Image-Multimodal-Aufgaben, bei denen aus einer gegebenen Textbeschreibung ein Bild generiert oder abgerufen wird, stellen äußerst anspruchsvolle Herausforderungen dar, da rohe Textbeschreibungen nur begrenzte Informationen enthalten, um visuell realistische Bilder vollständig zu beschreiben. Wir stellen eine neue visuelle kontextuelle Textrepräsentation für Text-to-Image-Multimodal-Aufgaben, VICTR (Visual Contextual Text Representation), vor, die reiche visuelle semantische Informationen über Objekte aus der Texteingabe erfasst. Zunächst verwenden wir die Textbeschreibung als Ausgangseingabe und führen eine Abhängigkeitsanalyse durch, um die syntaktische Struktur zu extrahieren und die semantischen Aspekte zu analysieren, einschließlich Objektanzahlen, um einen Szenengraphen zu erstellen. Anschließend trainieren wir die extrahierten Objekte, Attribute und Relationen im Szenengraphen sowie die entsprechenden geometrischen Beziehungsinformationen mithilfe von Graphen-Convolutional Networks (GCNs), wodurch eine Textrepräsentation generiert wird, die sowohl textuelle als auch visuelle semantische Informationen integriert. Diese Textrepräsentation wird mit Wort- und Satzebene-Embeddings aggregiert, um sowohl visuell kontextuelle Wort- als auch Satzrepräsentationen zu erzeugen. Zur Evaluation wurde VICTR auf bestehende state-of-the-art-Modelle für Text-zu-Bild-Generierung angebracht. VICTR lässt sich problemlos in bestehende Modelle integrieren und verbessert sowohl quantitativ als auch qualitativ die Leistung.