HyperAIHyperAI

Command Palette

Search for a command to run...

VICTR: Visual Information Captured Text Representation für Text-to-Image Multimodale Aufgaben

Soyeon Caren Han Siqu Long Siwen Luo Kunze Wang Josiah Poon

Zusammenfassung

Text-to-Image-Multimodal-Aufgaben, bei denen aus einer gegebenen Textbeschreibung ein Bild generiert oder abgerufen wird, stellen äußerst anspruchsvolle Herausforderungen dar, da rohe Textbeschreibungen nur begrenzte Informationen enthalten, um visuell realistische Bilder vollständig zu beschreiben. Wir stellen eine neue visuelle kontextuelle Textrepräsentation für Text-to-Image-Multimodal-Aufgaben, VICTR (Visual Contextual Text Representation), vor, die reiche visuelle semantische Informationen über Objekte aus der Texteingabe erfasst. Zunächst verwenden wir die Textbeschreibung als Ausgangseingabe und führen eine Abhängigkeitsanalyse durch, um die syntaktische Struktur zu extrahieren und die semantischen Aspekte zu analysieren, einschließlich Objektanzahlen, um einen Szenengraphen zu erstellen. Anschließend trainieren wir die extrahierten Objekte, Attribute und Relationen im Szenengraphen sowie die entsprechenden geometrischen Beziehungsinformationen mithilfe von Graphen-Convolutional Networks (GCNs), wodurch eine Textrepräsentation generiert wird, die sowohl textuelle als auch visuelle semantische Informationen integriert. Diese Textrepräsentation wird mit Wort- und Satzebene-Embeddings aggregiert, um sowohl visuell kontextuelle Wort- als auch Satzrepräsentationen zu erzeugen. Zur Evaluation wurde VICTR auf bestehende state-of-the-art-Modelle für Text-zu-Bild-Generierung angebracht. VICTR lässt sich problemlos in bestehende Modelle integrieren und verbessert sowohl quantitativ als auch qualitativ die Leistung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp