PixelCNN++ : Amélioration du PixelCNN avec la Vraisemblance Mixte Logistique Discrétisée et d'autres Modifications

Les PixelCNN sont une classe de modèles génératifs puissants et récemment proposés, dotés d'une vraisemblance calculable. Dans cet article, nous discutons de notre implémentation des PixelCNN que nous mettons à disposition sur https://github.com/openai/pixel-cnn. Notre implémentation comporte plusieurs modifications apportées au modèle original, qui simplifient sa structure et améliorent ses performances :1) Nous utilisons une vraisemblance mixte de logistic discrétisée sur les pixels, plutôt qu'un softmax à 256 voies, ce qui accélère l'entraînement.2) Nous conditionnons le modèle sur des pixels entiers, plutôt que sur des sous-pixels R/G/B, simplifiant ainsi la structure du modèle.3) Nous utilisons un échantillonnage par sous-échantillonnage pour capturer efficacement la structure à différentes résolutions.4) Nous introduisons des connexions de raccourci supplémentaires pour accélérer encore l'optimisation.5) Nous régularisons le modèle en utilisant le dropout.Enfin, nous présentons des résultats de log-vraisemblance d'état de l'art sur CIFAR-10 pour démontrer l'utilité de ces modifications.