Interpolation de Frames Vidéo avec Prise en Compte de la Profondeur

L'interpolation de trames vidéo vise à synthétiser des trames inexistantes entre les trames originales. Bien que des progrès significatifs aient été réalisés grâce aux réseaux neuronaux convolutifs profonds récents, la qualité de l'interpolation est souvent réduite en raison du mouvement important d'objets ou de l'occlusion. Dans ce travail, nous proposons une méthode d'interpolation de trames vidéo qui détecte explicitement l'occlusion en explorant les informations de profondeur. Plus précisément, nous développons une couche de projection de flot sensible à la profondeur pour synthétiser des flots intermédiaires qui préfèrent échantillonner des objets plus proches plutôt que plus éloignés. De plus, nous apprenons des caractéristiques hiérarchiques pour recueillir des informations contextuelles auprès des pixels voisins. Le modèle proposé déforme ensuite les trames d'entrée, les cartes de profondeur et les caractéristiques contextuelles en fonction du flot optique et des noyaux d'interpolation locaux afin de synthétiser la trame de sortie. Notre modèle est compact, efficace et entièrement différentiable. Les résultats quantitatifs et qualitatifs montrent que le modèle proposé se compare favorablement aux méthodes d'interpolation de trames les plus avancées sur une large variété de jeux de données.