HyperAIHyperAI
vor 2 Monaten

Bedingte Bildgenerierung mit PixelCNN-Decodern

Aaron van den Oord; Nal Kalchbrenner; Oriol Vinyals; Lasse Espeholt; Alex Graves; Koray Kavukcuoglu
Bedingte Bildgenerierung mit PixelCNN-Decodern
Abstract

Diese Arbeit untersucht die bedingte Bildgenerierung mit einem neuen Bild-Dichtemodell, das auf der PixelCNN-Architektur basiert. Das Modell kann an jedem Vektor konditioniert werden, einschließlich deskriptiven Labels oder Tags sowie latente Einbettungen (embeddings), die von anderen Netzwerken erzeugt wurden. Wenn es an Klassenlabels aus der ImageNet-Datenbank konditioniert wird, ist das Modell in der Lage, vielfältige und realistische Szenen zu generieren, die verschiedene Tiere, Objekte, Landschaften und Strukturen darstellen. Bei Konditionierung an einer durch ein Faltungsnetzwerk gegebenen Einbettung eines einzelnen Bildes eines unbekannten Gesichts erzeugt es eine Vielzahl neuer Porträts derselben Person mit unterschiedlichen Gesichtsausdrücken, Haltungen und Beleuchtungsbedingungen. Wir zeigen außerdem, dass ein bedingter PixelCNN als leistungsfähiger Dekoder in einem Bild-Autoencoder dienen kann. Zudem verbessern die gittergesteuerten faltenden Schichten im vorgeschlagenen Modell die Log-Likelihood des PixelCNN so weit, dass sie den Stand der Technik von PixelRNN auf ImageNet erreichen, wobei die Rechenkosten stark reduziert werden.