Real-ESRGAN : Entraînement d'une super-résolution aveugle en situation réelle à l'aide de données synthétiques pures

Bien que de nombreuses tentatives aient été faites en super-résolution aveugle pour restaurer des images à faible résolution soumises à des dégradations inconnues et complexes, ces approches restent encore très éloignées de la capacité à traiter efficacement les images réelles du monde réel. Dans ce travail, nous étendons le puissant ESRGAN à une application pratique de restauration (notamment Real-ESRGAN), entraîné uniquement sur des données synthétiques. Plus précisément, nous introduisons un processus de modélisation de dégradation d'ordre supérieur afin de mieux simuler les dégradations complexes présentes dans les images du monde réel. Nous prenons également en compte les artefacts courants tels que les oscillations (ringing) et les surtensions (overshoot) lors de la phase de synthèse. En outre, nous utilisons un discriminateur U-Net avec normalisation spectrale afin d’améliorer la capacité du discriminateur et de stabiliser la dynamique d’entraînement. Des comparaisons étendues démontrent que notre méthode obtient des performances visuelles supérieures par rapport aux approches antérieures sur diverses bases de données réelles. Enfin, nous proposons des implémentations efficaces permettant de générer en temps réel les paires d’entraînement nécessaires.