HyperAIHyperAI

Command Palette

Search for a command to run...

LatteGAN: Visuell geleitete Sprachaufmerksamkeit für mehrschrittige, textbedingte Bildmanipulation

Shoya Matsumori Yuki Abe Kosuke Shingyouchi Komei Sugiura Michita Imai

Zusammenfassung

Textgesteuerte Bildmanipulationstasks haben in der Vision-und-Sprache-Community in letzter Zeit zunehmend Aufmerksamkeit gefunden. Während die meisten vorherigen Studien sich auf Einzelschritt-Manipulationen konzentrierten, zielt unser Ziel in diesem Paper auf die Lösung der anspruchsvolleren mehrschrittigen Bildmanipulation (Multi-Turn Image Manipulation, MTIM) ab. Bisherige Modelle für diese Aufgabe konnten Bilder iterativ generieren, gegeben eine Folge von Anweisungen und ein bereits generiertes Bild. Allerdings leiden dieser Ansatz unter Unter-Generierung und mangelnder Qualität der in den Anweisungen beschriebenen Objekte, was die Gesamtleistung letztendlich beeinträchtigt. Um diese Probleme zu überwinden, stellen wir eine neuartige Architektur vor, die als Visually Guided Language Attention GAN (LatteGAN) bezeichnet wird. Hier adressieren wir die Einschränkungen vorheriger Ansätze durch die Einführung eines Visually Guided Language Attention (Latte)-Moduls, das fein granulare Textrepräsentationen für den Generator extrahiert, sowie einer textbedingten U-Net-Discriminator-Architektur, die sowohl globale als auch lokale Repräsentationen von gefälschten oder echten Bildern unterscheidet. Umfangreiche Experimente auf zwei unterschiedlichen MTIM-Datensätzen, CoDraw und i-CLEVR, belegen die state-of-the-art-Leistung des vorgeschlagenen Modells.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
LatteGAN: Visuell geleitete Sprachaufmerksamkeit für mehrschrittige, textbedingte Bildmanipulation | Paper | HyperAI