HyperAIHyperAI
il y a 2 mois

Amélioration de la résolution d’une seule image photo-réaliste à l’aide d’un réseau génératif adversarial

Christian Ledig; Lucas Theis; Ferenc Huszar; Jose Caballero; Andrew Cunningham; Alejandro Acosta; Andrew Aitken; Alykhan Tejani; Johannes Totz; Zehan Wang; Wenzhe Shi
Amélioration de la résolution d’une seule image photo-réaliste à l’aide d’un réseau génératif adversarial
Résumé

Malgré les progrès réalisés en termes de précision et de vitesse dans le domaine du suréchantillonnage d'images uniques grâce à des réseaux neuronaux convolutifs plus rapides et plus profonds, un problème central reste largement non résolu : comment pouvons-nous récupérer les détails texturaux fins lors du suréchantillonnage à des facteurs d'échelle importants ? Le comportement des méthodes de suréchantillonnage basées sur l'optimisation est principalement déterminé par le choix de la fonction objectif. Les travaux récents se sont principalement concentrés sur la minimisation de l'erreur quadratique moyenne de reconstruction. Les estimations obtenues présentent des ratios signal-bruit élevés, mais elles manquent souvent de détails à haute fréquence et sont perceptuellement insatisfaisantes car elles ne parviennent pas à atteindre la fidélité attendue à une résolution supérieure. Dans cet article, nous présentons SRGAN, un réseau neuronal génératif adversarial (GAN) pour le suréchantillonnage d'images (SR). À notre connaissance, c'est le premier cadre capable d'inférer des images naturelles photoréalistes pour des facteurs d'échelle de 4x. Pour y parvenir, nous proposons une fonction de perte perceptuelle qui comprend une perte adversariale et une perte de contenu. La perte adversariale pousse notre solution vers la variété des images naturelles en utilisant un réseau discriminant formé pour différencier entre les images suréchantillonnées et les images photoréalistes originales. De plus, nous utilisons une perte de contenu motivée par la similarité perceptuelle plutôt que par la similarité dans l'espace des pixels. Notre réseau neuronal résiduel profond est capable de récupérer des textures photoréalistes à partir d'images fortement sous-échantillonnées sur des benchmarks publics. Un test exhaustif du score moyen d'opinion (MOS) montre des gains perceptuels significatifs en utilisant SRGAN. Les scores MOS obtenus avec SRGAN sont plus proches de ceux des images haute résolution originales que ceux obtenus avec toute autre méthode d'avant-garde.