il y a un mois

Génération d'images de haute fidélité avec des réseaux de pixels à sous-échelle et un agrandissement multidimensionnel

Jacob Menick; Nal Kalchbrenner

Résumé

La génération inconditionnelle d'images de haute fidélité est une mesure de référence de longue date pour évaluer les performances des décodeurs d'images. Les modèles d'images auto-régressifs ont été capables de générer des images de petite taille inconditionnellement, mais l'extension de ces méthodes aux grandes images, où la fidélité peut être plus facilement évaluée, est restée un problème ouvert. Parmi les principaux défis figurent la capacité à encoder le vaste contexte précédent et la difficulté inhérente d'apprendre une distribution qui préserve à la fois la cohérence sémantique globale et la précision des détails. Pour relever le premier défi, nous proposons le réseau de pixels subscale (Subscale Pixel Network, SPN), une architecture de décodeur conditionnel qui génère une image comme une séquence de sous-images de taille égale. Le SPN capture efficacement les dépendances spatiales sur toute l'image et nécessite une fraction de la mémoire et du calcul requis par d'autres modèles entièrement auto-régressifs. Pour relever le second défi, nous proposons d'utiliser le redimensionnement multidimensionnel pour faire croître une image en taille et en profondeur via des étapes intermédiaires utilisant des SPNs distincts. Nous évaluons les SPNs sur la génération inconditionnelle d'images CelebAHQ de taille 256 et d'images ImageNet allant de 32 à 256 pixels. Nous obtenons des résultats probabilitaires d'état de l'art dans plusieurs configurations, établissons de nouveaux résultats de référence dans des configurations précédemment non explorées et sommes capables de générer des échantillons à grande échelle très fidèles basés sur les deux jeux de données.