Transformateur de restauration vidéo récurrent avec attention déformable guidée

La restauration vidéo vise à restaurer plusieurs images de haute qualité à partir de plusieurs images de basse qualité. Les méthodes actuelles de restauration vidéo se situent généralement dans deux cas extrêmes : elles restituent soit toutes les images en parallèle, soit les images une par une de manière récurrente, ce qui entraîne des avantages et des inconvénients différents. Typiquement, la première approche bénéficie d'une fusion efficace des informations temporelles. Cependant, elle souffre d'une taille de modèle importante et d'une consommation mémoire intensive ; la seconde approche présente une taille de modèle relativement petite car elle partage les paramètres entre les images ; cependant, elle manque de capacité à modéliser les dépendances à long terme et n'est pas parallélisable. Dans cet article, nous tentons d'intégrer les avantages des deux approches en proposant un transformateur récurrent pour la restauration vidéo, nommé RVRT (Recurrent Video Restoration Transformer). Le RVRT traite les images voisines localement en parallèle au sein d'un cadre global récurrent, permettant ainsi d'atteindre un bon compromis entre la taille du modèle, l'efficacité et l'efficience. Plus précisément, le RVRT divise la vidéo en plusieurs segments et utilise la caractéristique du segment précédemment inféré pour estimer celle du segment suivant. Au sein de chaque segment, différentes caractéristiques d'images sont mises à jour conjointement avec une agrégation implicite des caractéristiques. Entre différents segments, une attention déformable guidée est conçue pour l'alignement inter-segments, prédisant plusieurs positions pertinentes sur l'ensemble du segment inféré et agrégant leurs caractéristiques par le mécanisme d'attention. De nombreuses expériences sur la super-résolution vidéo, le défloutage et le débruitage montrent que le RVRT proposé atteint des performances de pointe sur des jeux de données de référence tout en maintenant une taille de modèle équilibrée, une consommation mémoire lors des tests et un temps d'exécution optimisé.