Selbst-Aufmerksamkeits Generative Adversarische Netze

In dieser Arbeit schlagen wir das Selbst-Aufmerksamkeits-Generative Adversarial Network (SAGAN) vor, welches es ermöglicht, bei Bildgenerierungsaufgaben durch Aufmerksamkeit gesteuerte, langreichweitige Abhängigkeiten zu modellieren. Traditionelle konvolutive GANs erzeugen hochaufgelöste Details als Funktion nur von räumlich lokalen Punkten in niedrig-auflösenden Merkmalskarten. Im SAGAN können Details unter Verwendung von Hinweisen aus allen Merkmalspositionen generiert werden. Darüber hinaus kann der Diskriminator prüfen, ob hochdetaillierte Merkmale in entfernten Bereichen des Bildes konsistent miteinander sind. Zudem haben jüngste Arbeiten gezeigt, dass die Bedingung des Generators die Leistung von GANs beeinflusst. Indem wir diese Erkenntnis nutzen, wenden wir spektrale Normalisierung auf den Generator der GAN an und stellen fest, dass dies die Trainingsdynamik verbessert. Das vorgeschlagene SAGAN erzielt Stand-der-Technik-Ergebnisse und steigert den besten veröffentlichten Inception-Score von 36,8 auf 52,52 und reduziert den Frechet-Inception-Distanz-Wert von 27,62 auf 18,65 im anspruchsvollen ImageNet-Datensatz. Die Visualisierung der Aufmerksamkeitsschichten zeigt, dass der Generator Nachbarschaften nutzt, die sich den Objektformen entsprechen, anstatt lokalen Regionen fester Form.