HyperAIHyperAI
il y a 17 jours

Transformateur sparse guidé par le flux pour le flou vidéo

Jing Lin, Yuanhao Cai, Xiaowan Hu, Haoqian Wang, Youliang Yan, Xueyi Zou, Henghui Ding, Yulun Zhang, Radu Timofte, Luc Van Gool
Transformateur sparse guidé par le flux pour le flou vidéo
Résumé

L’exploitation de patches de scènes similaires et plus nets dans les voisinages spatio-temporels est essentielle pour le déflouage vidéo. Toutefois, les méthodes basées sur les réseaux de neurones convolutifs (CNN) présentent des limites quant à la capture des dépendances à longue portée et à la modélisation de la similarité auto-non locale. Dans cet article, nous proposons un cadre novateur, appelé Flow-Guided Sparse Transformer (FGST), pour le déflouage vidéo. Dans FGST, nous avons conçu un module d’attention auto, nommé Flow-Guided Sparse Window-based Multi-head Self-Attention (FGSW-MSA). Pour chaque élément de requête (query) sur le cadre de référence flou, FGSW-MSA bénéficie de la guidance fournie par le flux optique estimé afin d’échantillonner de manière globale des éléments clés (key) spatialement épars mais fortement corrélés, correspondant au même patch de scène dans les cadres voisins. Par ailleurs, nous introduisons un mécanisme d’encodage récurrent (Recurrent Embedding, RE) permettant de transférer l’information des cadres antérieurs et de renforcer les dépendances temporelles à longue portée. Des expériences approfondies démontrent que notre méthode FGST surpasser les états de l’art (SOTA) sur les jeux de données DVD et GOPRO, et produit même des résultats visuellement plus satisfaisants dans le cadre du déflouage vidéo réel. Le code source et les modèles pré-entraînés sont disponibles publiquement à l’adresse suivante : https://github.com/linjing7/VR-Baseline