Synthèse de trames vidéo à l'aide du flux voxel profond

Nous abordons le problème de la synthèse de nouvelles images dans une vidéo existante, que ce soit entre des images déjà présentes (interpolation) ou après elles (extrapolation). Ce problème est particulièrement ardu en raison de la grande complexité potentielle de l'apparence et du mouvement dans les vidéos. Les solutions traditionnelles basées sur le flux optique échouent souvent là où l'estimation du flux est difficile, tandis que les méthodes plus récentes basées sur les réseaux neuronaux qui génèrent directement des valeurs de pixels produisent souvent des résultats flous. Nous combinons les avantages de ces deux approches en formant un réseau profond capable d'apprendre à synthétiser des images vidéo en faisant circuler les valeurs de pixels à partir d'images existantes, que nous appelons deep voxel flow (flux voxel profond). Notre méthode ne nécessite aucune supervision humaine, et toute vidéo peut être utilisée comme données d'entraînement en supprimant puis en apprenant à prédire des images existantes. La technique est efficace et peut être appliquée à n'importe quelle résolution vidéo. Nous démontrons que notre méthode produit des résultats qui s'améliorent tant quantitativement que qualitativement par rapport à l'état de l'art.