Super SloMo : Estimation de haute qualité de plusieurs images intermédiaires pour l'interpolation vidéo

Étant donné deux images consécutives, l'interpolation vidéo vise à générer des images intermédiaires afin de former des séquences vidéo cohérentes tant spatialement que temporellement. Bien que la plupart des méthodes existantes se concentrent sur l'interpolation mono-image, nous proposons un réseau neuronal convolutif de bout en bout pour l'interpolation vidéo multi-images à longueur variable, où l'interprétation du mouvement et le raisonnement sur les occultations sont modélisés conjointement. Nous commençons par calculer le flux optique bidirectionnel entre les images d'entrée en utilisant une architecture U-Net. Ces flux sont ensuite combinés linéairement à chaque étape temporelle pour approcher les flux optiques bidirectionnels intermédiaires. Cependant, ces flux approximatifs ne fonctionnent bien que dans les régions localement lisses et produisent des artefacts autour des frontières de mouvement. Pour remédier à ce défaut, nous utilisons une autre U-Net pour affiner le flux approximatif et prédire également des cartes de visibilité douces. Enfin, les deux images d'entrée sont déformées (warped) et fusionnées linéairement pour former chaque image intermédiaire. En appliquant les cartes de visibilité aux images déformées avant la fusion, nous excluons la contribution des pixels occultés à l'image intermédiaire interpolée pour éviter les artefacts. Comme aucun de nos paramètres appris n'est dépendant du temps, notre méthode est capable de produire autant d'images intermédiaires que nécessaire. Nous utilisons 1 132 clips vidéo avec une fréquence d’images de 240 images par seconde (fps), contenant 300 000 images individuelles de vidéo, pour entraîner notre réseau. Les résultats expérimentaux sur plusieurs jeux de données, prédisant différents nombres d'images interpolées, montrent que notre approche performe constamment mieux que les méthodes existantes.