Wavelet-SRNet : un CNN fondé sur la transformation en ondelettes pour la super-résolution multi-échelle du visage

La plupart des méthodes modernes de super-résolution faciale s'appuient sur des réseaux de neurones convolutifs (CNN) pour estimer des images haute résolution (HR). Toutefois, lorsqu’elles sont confrontées à des images très basses résolutions (LR), les performances de ces méthodes basées sur les CNN déclinent fortement. Par ailleurs, ces approches ont tendance à produire des sorties trop lissées, en perdant certaines détails texturaux essentiels. Pour relever ces défis, ce papier présente une méthode fondée sur les ondelettes et combinant les CNN, capable de réaliser une ultra-résolution d’images faciales très basses résolutions (de taille 16×16 pixels ou inférieure) vers des versions agrandies à plusieurs facteurs d’échelle (2x, 4x, 8x et même 16x) dans un cadre unifié. Contrairement aux méthodes CNN classiques qui reconstruisent directement l’image HR, notre approche apprend d’abord à prédire les coefficients d’ondelettes correspondants de l’image HR à partir de l’image LR, avant de reconstruire l’image HR à partir de ces coefficients. Afin de capturer à la fois les informations topologiques globales et les détails texturaux locaux des visages humains, nous proposons un réseau de neurones convolutif flexible et extensible, associé à trois types de pertes : une perte de prédiction d’ondelettes, une perte texturale et une perte sur l’image entière. Des expériences étendues montrent que la méthode proposée obtient des résultats plus convaincants, tant sur le plan quantitatif que qualitatif, par rapport aux méthodes de super-résolution les plus avancées de l’état de l’art.