RSTT : Transformateur Spatio-Temporel en Temps Réel pour la Sur-Résolution Vidéo Spatio-Temporelle

La sur-résolution spatio-temporelle de vidéo (STVSR) est la tâche d'interpoler des vidéos à la fois à faible taux d'images par seconde (LFR) et à faible résolution (LR) pour produire des versions à haut taux d'images par seconde (HFR) et également à haute résolution (HR). Les méthodes existantes basées sur les réseaux neuronaux convolutifs (CNN) réussissent à obtenir des résultats visuellement satisfaisants mais souffrent d'une vitesse d'inférence lente en raison de leurs architectures lourdes. Nous proposons de résoudre ce problème en utilisant un transformateur spatio-temporel qui intègre naturellement les modules de sur-résolution spatiale et temporelle dans un seul modèle. Contrairement aux méthodes basées sur les CNN, nous n'utilisons pas explicitement des blocs distincts pour les interpolations temporelles et les sur-résolutions spatiales ; au lieu de cela, nous utilisons uniquement une architecture de transformateur bout-en-bout. Plus précisément, un dictionnaire réutilisable est construit par les encodeurs en fonction des images d'entrée LFR et LR, puis utilisé dans la partie décodeur pour synthétiser les images HFR et HR. Comparé au réseau d'état de l'art TMNet \cite{xu2021temporal}, notre réseau est 60 % plus petit (4,5 millions contre 12,3 millions de paramètres) et 80 % plus rapide (26,2 ips contre 14,3 ips sur des images de $720\times576$ pixels), sans sacrifier grandement les performances. Le code source est disponible à l'adresse https://github.com/llmpass/RSTT.