vor 2 Monaten

Bild-Transformer

Niki Parmar; Ashish Vaswani; Jakob Uszkoreit; Łukasz Kaiser; Noam Shazeer; Alexander Ku; Dustin Tran

Abstract

Die Bildgenerierung wurde erfolgreich als autoregressives Sequenzgenerierungs- oder -transformationsproblem formuliert. Neueste Arbeiten haben gezeigt, dass Selbst-Aufmerksamkeit (self-attention) eine effektive Methode zur Modellierung textbasierter Sequenzen ist. In dieser Arbeit verallgemeinern wir eine kürzlich vorgeschlagene Modellarchitektur, die auf Selbst-Aufmerksamkeit basiert, den Transformer, auf eine sequenzbasierte Formulierung der Bildgenerierung mit einer handhabbaren Wahrscheinlichkeit. Durch die Einschränkung des Selbst-Aufmerksamkeitsmechanismus auf lokale Nachbarschaften können wir die Größe der Bilder erheblich erhöhen, die das Modell in der Praxis verarbeiten kann, obwohl es pro Schicht signifikant größere Rezeptive Felder als typische Faltungsneuronale Netze (convolutional neural networks) beibehält. Obwohl konzeptuell einfach, übertreffen unsere generativen Modelle den aktuellen Stand der Technik bei der Bildgenerierung auf ImageNet erheblich und verbessern den besten veröffentlichten negativen Log-Likelihood auf ImageNet von 3.83 auf 3.77. Wir präsentieren auch Ergebnisse zur Bildsuperauflösung mit einem großen Vergrößerungsverhältnis, wobei wir eine Enkoder-Dekoder-Konfiguration unserer Architektur anwenden. In einer menschlichen Bewertungsstudie stellen wir fest, dass die durch unser Superauflösungsmodell generierten Bilder dreimal häufiger menschliche Beobachter täuschen als der bisherige Stand der Technik.