HyperAIHyperAI

Command Palette

Search for a command to run...

MirrorGAN: Lernen der Text-zu-Bild-Generierung durch Umformulierung

Tingting Qiao Jing Zhang Duanqing Xu Dacheng Tao

Zusammenfassung

Das Generieren eines Bildes aus einer gegebenen Textbeschreibung hat zwei Ziele: visuelle Realität und semantische Konsistenz. Obwohl erhebliche Fortschritte bei der Erstellung hochwertiger und realistisch aussehender Bilder mithilfe von generativen adversären Netzen gemacht wurden, bleibt die Gewährleistung der semantischen Konsistenz zwischen Textbeschreibung und visuellem Inhalt sehr herausfordernd. In dieser Arbeit adressieren wir dieses Problem durch den Vorschlag eines neuen global-lokal aufmerksamkeitsbasierten und semantikbewahrenden Frameworks für Text-zu-Bild-zu-Text-Generierung, das MirrorGAN genannt wird. MirrorGAN nutzt die Idee des Lernens von Text-zu-Bild-Generierung durch Umformulierung und besteht aus drei Modulen: einem semantischen Text-Einbettungsmodul (STEM), einem global-lokal kooperativen aufmerksamkeitsbasierten Modul für kaskadierte Bildgenerierung (GLAM) und einem Modul zur semantischen Wiederherstellung und Ausrichtung von Textbeschreibungen (STREAM). STEM erzeugt Wort- und Satzeinbettungen. GLAM verfügt über eine kaskadierende Architektur zur Generierung von Zielbildern in groben bis feinen Skalen, wobei sowohl lokale Wortaufmerksamkeit als auch globale Satzaufmerksamkeit genutzt werden, um schrittweise die Vielfalt und semantische Konsistenz der generierten Bilder zu verbessern. STREAM strebt an, die Textbeschreibung aus dem generierten Bild wiederzuerstellen, die semantisch mit der gegebenen Textbeschreibung übereinstimmt. Gründliche Experimente auf zwei öffentlichen Benchmark-Datensätzen zeigen die Überlegenheit von MirrorGAN gegenüber anderen repräsentativen state-of-the-art-Methoden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp