Réseau de super-résolution extrême perceptuelle avec bloc de champ réceptif

La super-résolution perceptuelle extrême à partir d’une seule image est extrêmement difficile, en raison des grandes variations des détails texturaux entre différentes images. Pour relever ce défi, nous avons développé un réseau de super-résolution basé sur une architecture améliorée de SRGAN, intégrant un bloc de champ réceptif (receptive field block, RFB). Nous avons nommé ce réseau RFB-ESRGAN. Les contributions principales sont les suivantes : premièrement, afin d’extraire efficacement des informations à plusieurs échelles et d’améliorer la discriminabilité des caractéristiques, nous avons introduit le bloc de champ réceptif (RFB), qui a démontré des résultats compétitifs dans des tâches de détection et de classification d’objets. Deuxièmement, au lieu d’utiliser de grands noyaux de convolution dans le bloc de champ réceptif à plusieurs échelles, nous avons opté pour l’emploi de plusieurs petits noyaux, ce qui nous permet d’extraire des détails fins tout en réduisant la complexité computationnelle. Troisièmement, nous avons alterné différents méthodes d’interpolation dans la phase d’upscaling, permettant ainsi de réduire la charge computationnelle tout en préservant des performances satisfaisantes. Quatrièmement, nous avons utilisé une combinaison (ensemble) de dix modèles entraînés à différentes itérations, ce qui améliore la robustesse du modèle et réduit le bruit introduit par chaque modèle individuel. Nos résultats expérimentaux démontrent la supériorité de RFB-ESRGAN. Selon les résultats préliminaires du défi NTIRE 2020 sur la super-résolution perceptuelle extrême, notre solution se classe en tête parmi tous les participants.