Réexamen de la modélisation temporelle pour la super-résolution vidéo

La super-résolution vidéo joue un rôle crucial dans l’analyse des vidéos de surveillance et dans l’affichage de vidéos en ultra-haute définition, suscitant un vif intérêt tant au sein de la communauté scientifique que de l’industrie. Bien que de nombreuses méthodes de super-résolution vidéo basées sur l’apprentissage profond aient été proposées, il est difficile de les comparer directement, car les fonctions de perte et les jeux de données d’entraînement utilisés ont une influence significative sur les résultats obtenus. Dans ce travail, nous étudions et comparons soigneusement trois méthodes de modélisation temporelle pour la super-résolution vidéo : un réseau convolutif 2D avec fusion précoce, un réseau convolutif 3D avec fusion lente, et un réseau de neurones récurrents (RNN). Nous proposons également un nouveau modèle, le Réseau récurrent résiduel (RRN), conçu pour une super-résolution vidéo efficace, dans lequel l’apprentissage résiduel est utilisé à la fois pour stabiliser l’entraînement du RNN et pour améliorer les performances de super-résolution. Des expériences étendues montrent que le RRN proposé est particulièrement efficace sur le plan computationnel et produit des résultats de super-résolution temporellement cohérents, avec des détails plus fins que les autres méthodes de modélisation temporelle. En outre, la méthode proposée atteint des résultats de pointe sur plusieurs benchmarks largement utilisés.