Réseau de neurones récurrents profond avec propagation bi-directionnelle multi-échelle pour le déflouage vidéo

Le succès des méthodes de déflouage vidéo les plus avancées repose principalement sur une estimation implicite ou explicite de l’alignement entre les cadres adjacents, afin de restaurer le vidéo latente. Toutefois, en raison de l’effet de flou, l’estimation de ces informations d’alignement à partir des cadres flous adjacents n’est pas une tâche aisée. Des estimations inexactes perturbent ensuite la restauration des cadres suivants. À la place d’estimer directement l’alignement, nous proposons un réseau de neurones récurrents profond simple et efficace, appelé RNN-MBP (Recurrent Neural Network with Multi-scale Bi-directional Propagation), permettant de propager et de regrouper efficacement les informations provenant des cadres voisins non alignés, pour une meilleure déflouage vidéo. Plus précisément, nous avons conçu un module de propagation bi-directionnelle à plusieurs échelles (MBP) composé de deux cellules RNN en U-Net, capables d’exploiter directement les informations inter-cadres provenant des états cachés non alignés en les intégrant à différentes échelles. En outre, afin d’évaluer de manière plus adéquate l’algorithme proposé ainsi que les méthodes de pointe existantes sur des scènes réelles floues, nous avons également créé un jeu de données vidéo réellement flou (RBVD, Real-World Blurry Video Dataset) à l’aide d’un système de capture vidéo numérique (DVAS) soigneusement conçu, et nous l’utilisons comme jeu de données d’entraînement et d’évaluation. Les résultats expérimentaux étendus démontrent que le jeu de données RBVD améliore efficacement les performances des algorithmes existants sur des vidéos floues du monde réel, et que l’algorithme proposé se distingue favorablement par rapport aux méthodes de pointe sur trois benchmarks typiques. Le code source est disponible à l’adresse suivante : https://github.com/XJTU-CVLAB-LOWLEVEL/RNN-MBP.