Résolution de vidéo aveugle par super-résolution profonde

Les algorithmes existants de super-résolution vidéo (SR) supposent généralement que les noyaux de flou présents dans le processus de dégradation sont connus, sans modéliser effectivement ces noyaux lors de la restauration. Or, cette hypothèse n’est pas réaliste dans le contexte de la super-résolution vidéo et conduit souvent à des images reconstruites trop lissées. Dans cet article, nous proposons un modèle de réseau de neurones convolutifs profonds (CNN) pour résoudre le problème de la super-résolution vidéo via une approche de modélisation des noyaux de flou. Le modèle CNN proposé intègre trois modules principaux : l’estimation du flou de mouvement, l’estimation du mouvement et la restauration de l’image latente. Le module d’estimation du flou de mouvement vise à fournir des noyaux de flou fiables. À partir de ces noyaux estimés, nous développons une méthode de déconvolution d’image basée sur le modèle de formation d’image propre à la super-résolution vidéo, afin de générer des images latentes intermédiaires permettant une restauration efficace de certains détails fins. Toutefois, ces images intermédiaires peuvent contenir des artefacts. Afin d’obtenir des images de haute qualité, nous utilisons le module d’estimation du mouvement pour exploiter les informations provenant des trames adjacentes, où l’estimation du mouvement permet de contraindre le modèle CNN profond afin d’améliorer la qualité de la restauration. Nous démontrons que l’algorithme proposé est capable de produire des images plus nettes, riches en détails structurels fins. Des résultats expérimentaux étendus montrent que la méthode proposée se distingue favorablement des approches de pointe actuelles.