Débrouillage de scènes dynamiques utilisant des réseaux de neurones récurrents à variation spatiale

En raison du flou variant en espace causé par les vibrations de l'appareil photo et les mouvements des objets dans des scènes à différentes profondeurs, le déflouage des images capturées dans des scènes dynamiques reste un défi. Bien que les travaux récents basés sur les réseaux de neurones profonds aient montré des progrès significatifs sur ce problème, leurs modèles sont généralement volumineux et très coûteux en termes de calcul. Dans cet article, nous proposons un nouveau réseau neuronal variant en espace pour résoudre ce problème. Le réseau proposé se compose de trois réseaux de neurones convolutifs profonds (CNN) et d’un réseau de neurones récurrents (RNN). L’RNN est utilisé comme opérateur de déconvolution agissant sur les cartes de caractéristiques extraites de l’image d’entrée par l’un des CNN. Un autre CNN est chargé d’apprendre les poids de l’RNN à chaque position spatiale. En conséquence, l’RNN devient variant en espace et peut modéliser implicitement le processus de déflouage à l’aide de noyaux variant en espace. Le troisième CNN sert à reconstruire les cartes de caractéristiques déflouées en image restaurée. L’ensemble du réseau est entraînable de bout en bout. Notre analyse montre que le réseau proposé possède un champ réceptif important, même avec une taille de modèle réduite. Des évaluations quantitatives et qualitatives sur des jeux de données publics démontrent que la méthode proposée se distingue favorablement des algorithmes de pointe en termes de précision, de vitesse et de taille du modèle.