Vers une restauration robuste de visages aveugles avec un transformateur de recherche dans un codebook

La restauration de visages aveugles est un problème fortement mal posé qui nécessite souvent une guidance auxiliaire pour 1) améliorer le mappage des entrées dégradées vers les sorties souhaitées, ou 2) compléter les détails de haute qualité perdus dans les entrées. Dans cet article, nous démontrons qu'un codebook discret appris dans un espace proxy réduit considérablement l'incertitude et l'ambiguïté du mappage de restauration en transformant la restauration de visages aveugles en une tâche de prédiction de code, tout en fournissant des atomes visuels riches pour générer des visages de haute qualité. Dans ce paradigme, nous proposons un réseau de prédiction basé sur un Transformer, nommé CodeFormer, pour modéliser la composition globale et le contexte des visages de faible qualité pour la prédiction de code, permettant ainsi la découverte de visages naturels qui approximent étroitement les visages cibles même lorsque les entrées sont fortement dégradées. Pour améliorer l'adaptabilité à différents types de dégradation, nous proposons également un module de transformation des caractéristiques contrôlable qui permet un compromis flexible entre fidélité et qualité. Grâce au codebook prior expressif et à la modélisation globale, CodeFormer surpassent les méthodes d'état de l'art tant en termes de qualité que de fidélité, montrant une robustesse supérieure face à la dégradation. De nombreux résultats expérimentaux sur des jeux de données synthétiques et réels vérifient l'efficacité de notre méthode.