Réseaux de convolution récurrents bidirectionnels pour la super-résolution multi-images

Résoudre un vidéo à faible résolution est généralement abordé soit par une super-résolution d’image unique (SR), soit par une super-résolution multi-images. La méthode de super-résolution d’image unique traite chaque trame vidéo de manière indépendante, négligeant ainsi la dépendance temporelle intrinsèque entre les trames, qui joue pourtant un rôle fondamental dans la super-résolution vidéo. La super-résolution multi-images extrait généralement des informations de mouvement, telles que le flux optique, afin de modéliser cette dépendance temporelle, ce qui entraîne souvent un coût computationnel élevé. Étant donné que les réseaux de neurones récurrents (RNN) sont particulièrement efficaces pour modéliser les informations contextuelles à long terme dans les séquences temporelles, nous proposons un réseau convolutif récurrent bidirectionnel pour une super-résolution multi-images efficace. Contrairement aux RNN classiques, notre approche repose sur deux innovations : 1) les connexions récurrentes pleines habituellement utilisées sont remplacées par des connexions convolutives partagées en poids ; 2) des connexions convolutives conditionnelles sont ajoutées entre les couches d’entrée précédentes et la couche cachée courante, afin d’améliorer la modélisation de la dépendance visuelle-temporelle. Grâce à une modélisation puissante de la dépendance temporelle, notre modèle parvient à restaurer efficacement des vidéos présentant des mouvements complexes et atteint des performances de pointe. En raison de l’efficacité des opérations de convolution, notre modèle présente une faible complexité computationnelle et s’exécute plusieurs ordres de grandeur plus vite que les méthodes multi-images existantes.