Transformateur de super-résolution vidéo avec attention masquée inter-et intra-trames

Récemment, le Vision Transformer a connu un grand succès dans la récupération de détails manquants dans des séquences à faible résolution, c’est-à-dire dans la tâche de super-résolution vidéo (VSR). Malgré son avantage en termes de précision VSR, la lourde charge computationnelle ainsi que la grande empreinte mémoire entravent le déploiement des modèles VSR basés sur les Transformers sur des dispositifs à ressources limitées. Dans cet article, nous abordons ce problème en proposant un nouveau cadre de traitement au niveau des caractéristiques : VSR avec attention masquée intra- et inter-images (MIA-VSR). Le cœur de MIA-VSR réside dans l’exploitation de la continuité temporelle au niveau des caractéristiques entre images adjacentes afin de réduire les calculs redondants et d’utiliser de manière plus rationnelle les caractéristiques SR précédemment améliorées. Plus précisément, nous proposons un bloc d’attention intra-image et inter-image qui prend en compte respectivement les caractéristiques passées et les caractéristiques d’entrée, et qui exploite uniquement les caractéristiques précédemment améliorées pour fournir des informations complémentaires. En outre, un module d’adaptation de prédiction de masque par blocs est conçu pour ignorer les calculs non pertinents en fonction de la similarité des caractéristiques entre images adjacentes. Nous menons des études ablatives détaillées afin de valider nos contributions et comparons la méthode proposée aux approches récentes de pointe en VSR. Les résultats expérimentaux montrent que MIA-VSR améliore l’efficacité mémoire et computationnelle par rapport aux méthodes de pointe, sans compromettre la précision en PSNR. Le code est disponible à l’adresse suivante : https://github.com/LabShuHangGU/MIA-VSR.