LatteGAN: Visuell geleitete Sprachaufmerksamkeit für mehrschrittige, textbedingte Bildmanipulation

Textgesteuerte Bildmanipulationstasks haben in der Vision-und-Sprache-Community in letzter Zeit zunehmend Aufmerksamkeit gefunden. Während die meisten vorherigen Studien sich auf Einzelschritt-Manipulationen konzentrierten, zielt unser Ziel in diesem Paper auf die Lösung der anspruchsvolleren mehrschrittigen Bildmanipulation (Multi-Turn Image Manipulation, MTIM) ab. Bisherige Modelle für diese Aufgabe konnten Bilder iterativ generieren, gegeben eine Folge von Anweisungen und ein bereits generiertes Bild. Allerdings leiden dieser Ansatz unter Unter-Generierung und mangelnder Qualität der in den Anweisungen beschriebenen Objekte, was die Gesamtleistung letztendlich beeinträchtigt. Um diese Probleme zu überwinden, stellen wir eine neuartige Architektur vor, die als Visually Guided Language Attention GAN (LatteGAN) bezeichnet wird. Hier adressieren wir die Einschränkungen vorheriger Ansätze durch die Einführung eines Visually Guided Language Attention (Latte)-Moduls, das fein granulare Textrepräsentationen für den Generator extrahiert, sowie einer textbedingten U-Net-Discriminator-Architektur, die sowohl globale als auch lokale Repräsentationen von gefälschten oder echten Bildern unterscheidet. Umfangreiche Experimente auf zwei unterschiedlichen MTIM-Datensätzen, CoDraw und i-CLEVR, belegen die state-of-the-art-Leistung des vorgeschlagenen Modells.