PixelCNN++: Verbesserung des PixelCNN durch die Verwendung der diskretisierten Logistischen Mischverteilungswahrscheinlichkeit und andere Modifikationen

PixelCNNs sind eine kürzlich vorgeschlagene Klasse leistungsfähiger generativer Modelle mit berechenbarer Likelihood. In diesem Artikel diskutieren wir unsere Implementierung von PixelCNNs, die unter https://github.com/openai/pixel-cnn zur Verfügung gestellt wird. Unsere Implementierung enthält mehrere Änderungen am ursprünglichen Modell, die sowohl dessen Struktur vereinfachen als auch die Leistung verbessern:1) Wir verwenden eine diskretisierte Logistik-Mischungs-Likelihood für die Pixel anstelle einer 256-Wege-Softmax, was das Training beschleunigt.2) Wir bedingen uns auf ganze Pixel anstelle von R/G/B-Sub-Pixeln, was die Modellstruktur vereinfacht.3) Wir nutzen Downsampling, um Strukturen in verschiedenen Auflösungen effizient zu erfassen.4) Wir führen zusätzliche Short-Cut-Verbindungen ein, um die Optimierung weiter zu beschleunigen.5) Wir regularisieren das Modell durch den Einsatz von Dropout.Zum Abschluss präsentieren wir Stand-of-the-Art-Ergebnisse der Log-Likelihood auf CIFAR-10, um die Nützlichkeit dieser Änderungen zu demonstrieren.