HyperAIHyperAI
vor 2 Monaten

AttnGAN: Feingranulare Text-zu-Bild-Generierung mit aufmerksamkeitsbasierten generativen adversären Netzen

Tao Xu; Pengchuan Zhang; Qiuyuan Huang; Han Zhang; Zhe Gan; Xiaolei Huang; Xiaodong He
AttnGAN: Feingranulare Text-zu-Bild-Generierung mit aufmerksamkeitsbasierten generativen adversären Netzen
Abstract

In dieser Arbeit schlagen wir ein Aufmerksamkeitsgesteuertes Generatives adversariales Netzwerk (AttnGAN) vor, das eine aufmerksamkeitsgetriebene, mehrstufige Verfeinerung für die feingranulare Text-zu-Bild-Generierung ermöglicht. Mit einem neuartigen aufmerksamkeitsbasierten generativen Netzwerk kann das AttnGAN feingranulare Details in verschiedenen Unterregionen des Bildes synthetisieren, indem es sich auf die entsprechenden Wörter in der natürlichsprachlichen Beschreibung konzentriert. Zudem wird ein tiefes aufmerksamkeitsbasiertes multimodales Ähnlichkeitsmodell vorgeschlagen, um einen feingranularen Bild-Text-Matching-Verlust für die Schulung des Generators zu berechnen. Das vorgeschlagene AttnGAN übertrifft den bisherigen Stand der Technik erheblich und verbessert den besten gemeldeten Inception-Score um 14,14 % im CUB-Datensatz und um 170,25 % im anspruchsvolleren COCO-Datensatz. Eine detaillierte Analyse wird durch die Visualisierung der Aufmerksamkeitsschichten des AttnGAN durchgeführt. Zum ersten Mal zeigt diese Analyse, dass ein schichtweises aufmerksamkeitsbasiertes GAN in der Lage ist, automatisch die Bedingungen auf Wortebene auszuwählen, um verschiedene Teile des Bildes zu generieren.