Zooming Slow-Mo : Une méthode rapide et précise de super-résolution vidéo spatio-temporelle en une seule étape

Dans cet article, nous explorons la tâche de sur-résolution spatio-temporelle des vidéos, qui vise à générer une vidéo au ralenti en haute résolution (HR) à partir d'une vidéo à faible taux d'images par seconde (LFR) et en basse résolution (LR). Une solution simple consiste à diviser cette tâche en deux sous-tâches : l'interpolation de cadres vidéo (VFI) et la sur-résolution de vidéo (VSR). Cependant, l'interpolation temporelle et la sur-résolution spatiale sont étroitement liées dans cette tâche. Les méthodes en deux étapes ne peuvent pas pleinement tirer parti de cette propriété naturelle. De plus, les réseaux VFI ou VSR de pointe nécessitent un module important de synthèse ou de reconstruction de cadres pour prédire des cadres vidéo de haute qualité, ce qui rend ces méthodes en deux étapes volumineuses et donc chronophages.Pour surmonter ces problèmes, nous proposons un cadre de sur-résolution spatio-temporelle des vidéos en une seule étape, qui synthétise directement une vidéo au ralenti en haute résolution à partir d'une vidéo LFR, LR. Au lieu de synthétiser les cadres manquants en basse résolution comme le font les réseaux VFI, nous interpolons temporellement les caractéristiques des cadres LR dans les cadres manquants pour capturer les contextes temporels locaux grâce au réseau d'interpolation temporelle des caractéristiques proposé. Ensuite, nous proposons un ConvLSTM déformable pour aligner et agréger simultanément les informations temporelles afin d'exploiter davantage les contextes temporels globaux. Enfin, un réseau de reconstruction profond est utilisé pour prédire les cadres de la vidéo au ralenti en haute résolution.Des expériences approfondies sur des jeux de données de référence montrent que la méthode proposée non seulement atteint des performances quantitatives et qualitatives supérieures mais aussi est plus de trois fois plus rapide que les méthodes récentes en deux étapes d'avant-garde, telles que DAIN+EDVR et DAIN+RBPN.