Résolution vidéo profonde par estimation de flux optique à haute résolution

La super-résolution vidéo (SR) vise à générer une séquence de cadres haute résolution (HR) dotés de détails plausibles et cohérents dans le temps à partir de leurs contreparties à basse résolution (LR). Le défi principal de la super-résolution vidéo réside dans l’exploitation efficace de la dépendance temporelle entre cadres consécutifs. Les méthodes actuelles basées sur l’apprentissage profond estiment généralement les flux optiques entre les cadres LR afin de fournir cette dépendance temporelle. Toutefois, le conflit de résolution entre les flux optiques à basse résolution et les sorties haute résolution limite la récupération de détails fins. Dans ce travail, nous proposons un réseau de super-résolution vidéo end-to-end capable de suréchantillonner à la fois les flux optiques et les images. La super-résolution des flux optiques à partir des cadres LR fournit une dépendance temporelle précise, améliorant ainsi finalement les performances de la super-résolution vidéo. Plus précisément, nous introduisons tout d’abord un réseau de reconstruction de flux optiques (OFRnet) pour estimer les flux optiques haute résolution de manière progressive, du grossier au fin. Ensuite, une compensation du mouvement est effectuée à l’aide des flux optiques haute résolution afin d’encoder la dépendance temporelle. Enfin, les entrées basses résolution compensées sont introduites dans un réseau de super-résolution (SRnet) pour produire les résultats de suréchantillonnage. Des expérimentations abondantes ont été menées afin de démontrer l’efficacité des flux optiques haute résolution pour améliorer les performances de la SR. Les résultats comparatifs sur les jeux de données Vid4 et DAVIS-10 montrent que notre réseau atteint une performance de pointe (state-of-the-art).