Pixel-Rekurrente Neuronale Netze

Das Modellieren der Verteilung natürlicher Bilder ist ein Meilensteinproblem im unüberwachten Lernen. Diese Aufgabe erfordert ein Bildmodell, das sowohl ausdrucksstark, handhabbar und skalierbar ist. Wir präsentieren ein tiefes neuronales Netzwerk, das die Pixel eines Bildes entlang der beiden räumlichen Dimensionen sequenziell vorhersagt. Unsere Methode modelliert die diskrete Wahrscheinlichkeit der rohen Pixelwerte und kodiert die gesamte Abhängigkeitsmenge im Bild. Architektonische Neuerungen umfassen schnelle zweidimensionale rekurrente Schichten und eine effektive Nutzung von Residualverbindungen in tiefen rekurrenten Netzen. Wir erreichen Log-Likelihood-Werte für natürliche Bilder, die deutlich besser sind als der bisherige Stand der Technik. Unsere Hauptergebnisse liefern auch Benchmarks für den vielfältigen ImageNet-Datensatz. Die von dem Modell generierten Beispiele erscheinen scharf, abwechslungsreich und global kohärent.