Débrouillage vidéo du monde réel : Un jeu de données de référence et un réseau de neurones récurrent efficace

Le déflouage vidéo en temps réel dans des conditions réelles reste un défi majeur en raison de la complexité du flou variant spatialement et temporellement, ainsi que des contraintes de coût computationnel faible. Pour améliorer l'efficacité du réseau, nous intégrons des blocs denses résiduels dans les cellules RNN afin d'extraire de manière efficace les caractéristiques spatiales de la trame courante. En outre, nous proposons un module d'attention spatio-temporelle globale pour fusionner les caractéristiques hiérarchiques pertinentes provenant des trames passées et futures, afin d'améliorer davantage le déflouage de la trame actuelle. Un autre problème urgent à résoudre est le manque de jeu de données étalons réalistes. Nous contribuons donc à la communauté en proposant un nouveau jeu de données (BSD), obtenu en capturant des séquences vidéo appariées floues/nettes à l’aide d’un système d’acquisition à séparateur de faisceau coaxial. Les résultats expérimentaux montrent que la méthode proposée (ESTRNN) atteint des performances supérieures en déflouage, à la fois quantitativement et qualitativement, tout en nécessitant un coût computationnel réduit par rapport aux méthodes de pointe en déflouage vidéo. En outre, les expériences de validation croisée entre jeux de données démontrent une grande généralisation du jeu BSD par rapport aux jeux de données synthétiques. Le code source et le jeu de données sont disponibles à l’adresse suivante : https://github.com/zzh-tech/ESTRNN.