HyperAIHyperAI

Command Palette

Search for a command to run...

AttnGAN: Feingranulare Text-zu-Bild-Generierung mit aufmerksamkeitsbasierten generativen adversären Netzen

Tao Xu∗1, Pengchuan Zhang2, Qiuyuan Huang2, Han Zhang3, Zhe Gan4, Xiaolei Huang1, Xiaodong He2

Zusammenfassung

In dieser Arbeit schlagen wir ein Aufmerksamkeitsgesteuertes Generatives adversariales Netzwerk (AttnGAN) vor, das eine aufmerksamkeitsgetriebene, mehrstufige Verfeinerung für die feingranulare Text-zu-Bild-Generierung ermöglicht. Mit einem neuartigen aufmerksamkeitsbasierten generativen Netzwerk kann das AttnGAN feingranulare Details in verschiedenen Unterregionen des Bildes synthetisieren, indem es sich auf die entsprechenden Wörter in der natürlichsprachlichen Beschreibung konzentriert. Zudem wird ein tiefes aufmerksamkeitsbasiertes multimodales Ähnlichkeitsmodell vorgeschlagen, um einen feingranularen Bild-Text-Matching-Verlust für die Schulung des Generators zu berechnen. Das vorgeschlagene AttnGAN übertrifft den bisherigen Stand der Technik erheblich und verbessert den besten gemeldeten Inception-Score um 14,14 % im CUB-Datensatz und um 170,25 % im anspruchsvolleren COCO-Datensatz. Eine detaillierte Analyse wird durch die Visualisierung der Aufmerksamkeitsschichten des AttnGAN durchgeführt. Zum ersten Mal zeigt diese Analyse, dass ein schichtweises aufmerksamkeitsbasiertes GAN in der Lage ist, automatisch die Bedingungen auf Wortebene auszuwählen, um verschiedene Teile des Bildes zu generieren.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp