Apprentissage de la guidance déformée pour la restauration faciale aveugle

Ce document étudie le problème de la restauration aveugle des visages à partir d'une image floue, bruyante, de faible résolution ou compressée (c'est-à-dire une observation dégradée). Pour une meilleure récupération des détails faciaux fins, nous modifions l'énoncé du problème en prenant en entrée à la fois l'observation dégradée et une image guidée de haute qualité de la même identité dans notre réseau de restauration guidée des visages (GFRNet). Cependant, l'observation dégradée et l'image guidée sont généralement différentes en termes de pose, d'éclairage et d'expression, ce qui fait échouer les CNNs simples (par exemple, U-Net) pour la récupération des détails faciaux fins et spécifiques à l'identité. Pour résoudre ce problème, notre modèle GFRNet comprend à la fois un sous-réseau de deformation (WarpNet) et un sous-réseau de reconstruction (RecNet). Le WarpNet est introduit pour prédire le champ de flux permettant de déformer l'image guidée afin de corriger la pose et l'expression (c'est-à-dire la guidance déformée), tandis que le RecNet prend en entrée l'observation dégradée et la guidance déformée pour produire le résultat de restauration. Étant donné que le champ de flux vérité-terrain n'est pas disponible, une perte basée sur les points caractéristiques associée à une régularisation par variation totale est intégrée pour guider l'apprentissage du WarpNet. De plus, pour rendre le modèle applicable à la restauration aveugle, notre GFRNet est formé sur des données synthétiques avec divers paramètres concernant le noyau flou, le niveau de bruit, le facteur d'échelle du sous-échantillonnage et le facteur de qualité JPEG. Les expériences montrent que notre GFRNet non seulement se compare avantageusement aux méthodes les plus récentes de restauration d'images et de visages, mais génère également des résultats visuellement photoréalistes sur des images faciales réelles dégradées.