Supervision auto-encodée pour la super-résolution d’images perceptuelles

Ce travail aborde l'objectif de fidélité dans le cadre de la super-résolution perceptuelle (SR). Plus précisément, nous nous intéressons aux limites de la perte au niveau des pixels $L_\text{p}$ ($\mathcal{L}\text{pix}$) dans les architectures de SR basées sur les GAN. Étant donné que $L\text{pix}$ est connue pour engendrer un compromis avec la qualité perceptuelle, les méthodes antérieures ont souvent recours à un facteur d'échelle réduit ou à l'application de filtres passe-bas. Toutefois, ce travail démontre que ces approches palliatives échouent à traiter le facteur fondamental à l'origine du flou. En conséquence, nous nous concentrons sur deux aspects : 1) distinguer précisément la composante sous-jacente de $L_\text{pix}$ qui contribue au flou, et 2) guider uniquement en fonction du facteur exempt de ce compromis. Nous montrons qu'il est possible d'atteindre ces objectifs de manière surprenamment simple, en exploitant un Auto-Encodeur (AE) pré-entraîné avec $L_\text{pix}$. Par conséquent, nous proposons une nouvelle fonction de perte, appelée Auto-Encoded Supervision for Optimal Penalization ($L_\text{AESOP}$), qui mesure la distance dans l'espace de l'AE, plutôt que dans l'espace brut des pixels. Il convient de noter que l'espace de l'AE désigne l'espace situé après le décodeur, et non l'espace du bottleneck. En remplaçant simplement $L_\text{pix}$ par $L_\text{AESOP}$, il devient possible d'offrir une guidance efficace pour la reconstruction sans compromettre la qualité perceptuelle. Conçue pour sa simplicité, notre méthode permet une intégration aisée dans les cadres existants de SR. Les résultats expérimentaux confirment que AESOP permet d'obtenir des performances favorables dans les tâches de super-résolution perceptuelle.