Attention non-locale augmentée par la mémoire pour la sur-résolution vidéo

Dans cet article, nous proposons une nouvelle méthode de sur-résolution vidéo visant à générer des vidéos haute résolution (HR) de haute fidélité à partir de vidéos basse résolution (LR). Les méthodes précédentes s'appuient principalement sur les trames temporelles voisines pour aider à la sur-résolution de la trame actuelle. Ces méthodes atteignent des performances limitées en raison des défis liés à l'alignement spatial des trames et du manque d'informations utiles provenant des trames voisines LR similaires. En revanche, nous avons conçu un mécanisme d'attention non locale inter-trames qui permet la sur-résolution vidéo sans alignement de trames, rendant ainsi notre méthode plus robuste aux mouvements importants dans la vidéo. De plus, pour obtenir des informations au-delà des trames voisines, nous avons élaboré un nouveau module d'attention augmenté par la mémoire capable de mémoriser les détails généraux des vidéos pendant l'entraînement de sur-résolution. Les résultats expérimentaux montrent que notre méthode peut atteindre des performances supérieures sur les vidéos avec mouvements importants comparativement aux méthodes les plus avancées actuellement disponibles, et ce sans aligner les trames. Notre code source sera mis à disposition.