il y a 17 jours

PULSE : Rééchantillonnage photo auto-supervisé par exploration de l'espace latent des modèles génératifs

Sachit Menon, Alexandru Damian, Shijia Hu, Nikhil Ravi, Cynthia Rudin

Résumé

L’objectif principal de la super-résolution à partir d’une seule image consiste à reconstruire des images haute résolution (HR) à partir d’entrées basse résolution (LR). Dans les approches antérieures, généralement supervisées, l’objectif d’apprentissage mesure habituellement une distance moyenne au niveau des pixels entre l’image super-résolue (SR) et l’image HR de référence. L’optimisation de telles métriques conduit fréquemment à un flou, particulièrement dans les régions à forte variance (riches en détails). Nous proposons une reformulation alternative du problème de super-résolution, fondée sur la génération d’images SR réalistes qui se désagrègent correctement lors d’un processus de réduction de résolution. Nous présentons un algorithme répondant à ce problème, nommé PULSE (Photo Upsampling via Latent Space Exploration), capable de générer des images haute résolution réalistes à des résolutions jamais observées auparavant dans la littérature. Cette génération s’effectue de manière entièrement auto-supervisée et n’est pas contrainte à un opérateur de dégradation spécifique utilisé lors de l’entraînement, contrairement aux méthodes précédentes qui nécessitent un apprentissage supervisé sur des bases de paires d’images LR-HR. À la place de partir de l’image LR et d’ajouter progressivement des détails, PULSE explore la variété des images naturelles haute résolution, à la recherche d’images qui, lorsqu’elles sont réduites en résolution, reproduisent l’image LR d’origine. Ce processus est formalisé par une « perte de désagrégation » (downscaling loss), qui guide l’exploration dans l’espace latent d’un modèle génératif. En exploitant les propriétés des gaussiennes en grande dimension, nous restreignons l’espace de recherche afin de garantir des sorties réalistes. Ainsi, PULSE génère des images super-résolues à la fois réalistes et capables de se désagréger correctement. Nous démontrons la faisabilité de notre approche dans le domaine de la super-résolution des visages (c’est-à-dire l’hallucination faciale). Nous fournissons également une analyse des limites et des biais de la méthode telle qu’actuellement implémentée, accompagnée d’une fiche modèle (model card) incluant des métriques pertinentes. Notre méthode surpasser les états de l’art en qualité perceptive à des résolutions et des facteurs d’échelle supérieurs à ceux atteints précédemment.