NeRV : Représentations neurales pour les vidéos

Nous proposons une nouvelle représentation neurale pour les vidéos (NeRV), qui encode les vidéos au sein de réseaux neuronaux. Contrairement aux représentations conventionnelles qui traitent les vidéos comme des séquences d’images, nous représentons les vidéos comme des réseaux neuronaux dont l’entrée est l’indice de trame. Étant donné un indice de trame, NeRV produit l’image RGB correspondante. Le processus d’encodage dans NeRV consiste simplement à ajuster un réseau neuronal aux trames vidéo, tandis que le décodage se réduit à une opération de propagation avant (feedforward) simple. En tant que représentation implicite par image, NeRV génère l’image entière et se distingue par une efficacité remarquable par rapport aux représentations implicites par pixel, offrant une accélération de l’encodage de 25 à 70 fois, une accélération du décodage de 38 à 132 fois, tout en atteignant une qualité vidéo supérieure. Grâce à cette représentation, nous pouvons traiter les vidéos comme des réseaux neuronaux, simplifiant ainsi plusieurs tâches liées aux vidéos. Par exemple, les méthodes conventionnelles de compression vidéo sont limitées par une chaîne de traitement longue et complexe, spécifiquement conçue pour cette tâche. En revanche, avec NeRV, nous pouvons appliquer n’importe quelle méthode de compression basée sur les réseaux neuronaux comme proxy pour la compression vidéo, obtenant des performances comparables aux approches classiques basées sur les trames (H.264, HEVC, etc.). Outre la compression, nous démontrons la généralisation de NeRV à la débruitage vidéo. Le code source et le modèle pré-entraîné sont disponibles à l’adresse suivante : https://github.com/haochen-rye/NeRV.git.