EDVR : Restauration vidéo avec des réseaux de convolution déformables améliorés

Les tâches de restauration vidéo, y compris la super-résolution et le défloutage, attirent de plus en plus l'attention dans la communauté de la vision par ordinateur. Un benchmark difficile nommé REDS a été publié lors du défi NTIRE19. Ce nouveau benchmark met au défi les méthodes existantes sur deux aspects : (1) comment aligner plusieurs images en présence de mouvements importants, et (2) comment fusionner efficacement différentes images présentant des mouvements et des flous variés. Dans ce travail, nous proposons un cadre novateur de restauration vidéo avec des réseaux déformables améliorés, appelé EDVR, pour relever ces défis. Tout d'abord, pour gérer les mouvements importants, nous avons conçu un module d'alignement pyramidal, en cascade et déformable (PCD), dans lequel l'alignement des images est effectué au niveau des caractéristiques à l'aide de convolutions déformables selon une approche grossière à fine. Ensuite, nous proposons un module de fusion temporelle et spatiale par attention (TSA), où l'attention est appliquée tant temporellement que spatialement afin de mettre l'accent sur les caractéristiques importantes pour la restauration ultérieure. Grâce à ces modules, notre EDVR remporte les premières places et dépasse largement le deuxième rang dans les quatre pistes du défi NTIRE19 de restauration et d'amélioration vidéo. EDVR montre également des performances supérieures aux méthodes publiées les plus avancées en matière de super-résolution vidéo et de défloutage. Le code est disponible à l'adresse suivante : https://github.com/xinntao/EDVR.