HyperAIHyperAI
vor 2 Monaten

Rekurrentes Topic-Transition-GAN für die Generierung visueller Absätze

Xiaodan Liang; Zhiting Hu; Hao Zhang; Chuang Gan; Eric P. Xing
Rekurrentes Topic-Transition-GAN für die Generierung visueller Absätze
Abstract

Ein natürliches Bild übermittelt in der Regel reichhaltige semantische Inhalte und kann aus verschiedenen Perspektiven betrachtet werden. Bestehende Methoden zur Bildbeschreibung sind jedoch weitgehend durch kleine, voreingenommene Mengen an visuellen Paragraphenanmerkungen eingeschränkt und schaffen es nicht, die reichen unterliegenden Semantiken abzudecken. In dieser Arbeit untersuchen wir ein halbüberwachtes Framework zur Erzeugung von Paragraphen, das in der Lage ist, vielfältige und semantisch kohärente Paragraphenbeschreibungen durch Schließen über lokale semantische Bereiche und Nutzung sprachlicher Kenntnisse zu synthetisieren. Das vorgeschlagene rekurrente Themenübergangs-Generative Adversarial Network (RTT-GAN) baut eine adversarische Struktur zwischen einem strukturierten Paragraphengenerator und mehrstufigen Paragraphendiskriminatoren auf. Der Paragraphengenerator erzeugt Sätze rekurrent, indem er bei jedem Schritt regionale visuelle und sprachliche Aufmerksamkeitsmechanismen einbezieht. Die Qualität der generierten Paragraphensätze wird von mehrstufigen adversarischen Diskriminatoren aus zwei Aspekten bewertet: der Plausibilität auf Satzebene und der Themenübergangskohärenz auf Paragraphenebene. Die gemeinsame adversarische Schulung des RTT-GAN führt das Modell dazu, realistische Paragraphen mit glatter logischer Übergänge zwischen den Satzthemen zu erzeugen. Ausführliche quantitative Experimente mit Bild- und Videoparagraphendatensätzen zeigen die Effektivität unseres RTT-GAN sowohl in überwachten als auch in halbüberwachten Szenarien. Qualitative Ergebnisse bei der Erzählung vielfältiger Geschichten zu einem Bild bestätigen zudem die Interpretierbarkeit des RTT-GAN.

Rekurrentes Topic-Transition-GAN für die Generierung visueller Absätze | Neueste Forschungsarbeiten | HyperAI