Réseau de super-résolution vidéo à fusion progressive par exploitation des corrélations spatio-temporelles non locales

La plupart des stratégies de fusion précédentes échouent soit à exploiter pleinement l’information temporelle, soit à nécessiter un temps de calcul trop élevé, et la manière de fusionner efficacement les informations temporelles issues de trames consécutives joue un rôle crucial dans la super-résolution vidéo (SR). Dans cette étude, nous proposons un nouveau réseau de fusion progressive pour la SR vidéo, conçu pour tirer un meilleur parti des informations spatiales et temporelles, et démontré comme étant plus efficace et plus performant que les stratégies existantes basées sur une fusion directe, une fusion lente ou des convolutions 3D. Dans le cadre de cette architecture de fusion progressive, nous introduisons également une opération non locale améliorée, permettant d’éviter les étapes complexes d’estimation et de compensation du mouvement (ME&MC) présentes dans les approches antérieures de SR vidéo. Des expérimentations étendues sur des jeux de données publics montrent que notre méthode dépasse l’état de l’art en moyenne de 0,96 dB, tout en étant environ trois fois plus rapide, avec seulement environ la moitié du nombre de paramètres requis.