HyperAIHyperAI
il y a 18 jours

Apprentissage de représentations neurales intervidéo pour une interpolation de trames de haute qualité

Wentao Shangguan, Yu Sun, Weijie Gan, Ulugbek S. Kamilov
Apprentissage de représentations neurales intervidéo pour une interpolation de trames de haute qualité
Résumé

Ce papier aborde le problème de l’interpolation vidéo temporelle, dont l’objectif consiste à synthétiser un nouveau cadre vidéo à partir de ses deux cadres voisins. Nous proposons CURE (Cross-Video Neural Representation), la première méthode d’interpolation vidéo fondée sur les champs neuronaux (Neural Fields, NF). Les champs neuronaux désignent une classe récente de méthodes pour la représentation neuronale de scènes 3D complexes, qui ont connu un succès considérable et une application étendue en vision par ordinateur. CURE représente la vidéo comme une fonction continue paramétrée par un réseau neuronal basé sur les coordonnées, dont les entrées sont les coordonnées spatiotemporelles et les sorties correspondent aux valeurs RGB correspondantes. CURE introduit une nouvelle architecture qui conditionne le réseau neuronal sur les cadres d’entrée afin d’imposer une cohérence espace-temps dans la vidéo synthétisée. Cette approche améliore non seulement la qualité finale de l’interpolation, mais permet également à CURE d’apprendre un modèle a priori à travers plusieurs vidéos. Les évaluations expérimentales montrent que CURE atteint un état de l’art sur plusieurs jeux de données standards d’interpolation vidéo.