iSeeBetter : Résolution d'image vidéo spatio-temporelle par réseaux récurrents génératifs de projection arrière

Récemment, les modèles fondés sur l’apprentissage ont amélioré les performances de la super-résolution d’image unique (SISR). Toutefois, l’application successive de la SISR à chaque trame vidéo entraîne une perte de cohérence temporelle. Les réseaux de neurones convolutifs (CNN) surpassent les approches traditionnelles en termes de métriques de qualité d’image telles que le rapport signal sur bruit crête (PSNR) et la similarité structurelle (SSIM). Toutefois, les réseaux génératifs adversariaux (GAN) offrent un avantage concurrentiel en permettant de atténuer le manque de détails texturaux fins, souvent observé avec les CNN lors de la super-résolution à des facteurs d’agrandissement élevés. Nous présentons iSeeBetter, une nouvelle approche spatio-temporelle basée sur les GAN pour la super-résolution vidéo (VSR), capable de produire des vidéos super-résolues avec une cohérence temporelle améliorée. iSeeBetter extrait à la fois des informations spatiales et temporelles à partir de la trame courante et de ses trames voisines en s’appuyant sur le concept de réseaux récurrents de rétroprojection comme générateur. En outre, afin d’améliorer la « naturalité » de l’image super-résolue tout en éliminant les artefacts caractéristiques des algorithmes traditionnels, nous utilisons le discriminateur issu du modèle de réseau génératif adversarial pour la super-résolution (SRGAN). Bien que l’erreur quadratique moyenne (MSE), utilisée comme objectif principal de minimisation de perte, améliore les scores de PSNR et SSIM, ces métriques ne capturent pas toujours les détails fins de l’image, conduisant à une représentation inadéquate de la qualité perceptive. Pour remédier à cela, nous proposons une fonction de perte à quatre composantes (MSE, perceptuelle, adversariale et variation totale (TV)). Nos résultats montrent que iSeeBetter offre une fidélité en VSR supérieure et dépasse les performances de l’état de l’art.