HyperAIHyperAI
il y a 17 jours

Générer des images faciales très basses résolutions, mal alignées et bruitées par des autoencodeurs discriminatifs transformants

{Xin Yu, Fatih Porikli}
Générer des images faciales très basses résolutions, mal alignées et bruitées par des autoencodeurs discriminatifs transformants
Résumé

La plupart des méthodes conventionnelles de hallucination faciale supposent que l’image d’entrée est suffisamment grande et alignée, et toutes exigent que l’image d’entrée soit exempte de bruit. Leur performance se dégrade fortement lorsque l’image d’entrée est petite, mal alignée ou contaminée par du bruit. Dans cet article, nous introduisons un nouveau décodeur autoencodeur discriminant transformant capable de réaliser une super-résolution 8× sur des images faciales de faible résolution (16×16), non alignées et bruitées. Contrairement aux autoencodeurs basés sur l’architecture encodeur-décodeur, notre méthode utilise un réseau décodeur-encodeur-décodeur. Nous utilisons d’abord un réseau décodeur discriminant transformant pour augmenter la résolution et supprimer le bruit simultanément. Ensuite, un réseau encodeur transformant projette les visages haute résolution intermédiaires vers des images de faible résolution alignées et débarrassées du bruit. Enfin, un deuxième décodeur génère les images haute résolution hallucinées. Nos évaluations étendues sur un très grand jeu de données facial montrent que notre méthode obtient des résultats de hallucination supérieurs et surpasse l’état de l’art avec une marge importante de 1,82 dB en PSNR.