Réseaux de Neurones Récursifs Pixel

La modélisation de la distribution des images naturelles est un problème emblématique dans l'apprentissage non supervisé. Cette tâche nécessite un modèle d'image qui soit à la fois expressif, traitable et évolutif. Nous présentons un réseau neuronal profond qui prédit séquentiellement les pixels d'une image le long des deux dimensions spatiales. Notre méthode modélise la probabilité discrète des valeurs de pixels brutes et encode l'ensemble complet des dépendances dans l'image. Les innovations architecturales incluent des couches récurrentes bidimensionnelles rapides et une utilisation efficace des connexions résiduelles dans les réseaux neuronaux récurrents profonds. Nous obtenons des scores de log-vraisemblance sur les images naturelles considérablement meilleurs que l'état de l'art précédent. Nos résultats principaux fournissent également des références sur le jeu de données diversifié ImageNet. Les échantillons générés par le modèle apparaissent nets, variés et globalement cohérents.