HyperAIHyperAI
il y a 11 jours

HNeRV : Une Représentation Neurale Hybride pour les Vidéos

Hao Chen, Matt Gwilliam, Ser-Nam Lim, Abhinav Shrivastava
HNeRV : Une Représentation Neurale Hybride pour les Vidéos
Résumé

Les représentations neuronales implicites stockent les vidéos sous forme de réseaux neuronaux et se sont montrées efficaces pour diverses tâches de vision, telles que la compression vidéo et le débruitage. En prenant en entrée l'indice de trame ou l'indice positionnel, les représentations implicites (NeRV, E-NeRV, etc.) reconstruisent la vidéo à partir d'embeddings fixes et indépendants du contenu. Ce type d'embedding limite considérablement la capacité de régression et la généralisation interne du modèle, en particulier pour la tâche d'interpolation vidéo. Dans ce papier, nous proposons une représentation hybride neuronale pour les vidéos (HNeRV), dans laquelle un encodeur apprenable génère des embeddings adaptatifs au contenu, qui servent d'entrée au décodeur. En plus de ces embeddings d'entrée, nous introduisons des blocs HNeRV, conçus pour assurer une répartition équilibrée des paramètres du modèle à travers l'ensemble du réseau, permettant ainsi aux couches supérieures (proches de la sortie) de disposer d'une plus grande capacité pour stocker des détails de haute résolution et des informations vidéo fines. Grâce à des embeddings adaptatifs au contenu et à une architecture redessinée, HNeRV surpasser les méthodes implicites sur les tâches de régression vidéo, tant en qualité de reconstruction (+4,7 dB PSNR) qu'en vitesse de convergence (16 fois plus rapide), tout en offrant une meilleure généralisation interne. En tant que représentation vidéo simple et efficace, HNeRV présente également des avantages significatifs en décodage en termes de vitesse, de flexibilité et de déploiement, comparée aux codecs traditionnels (H.264, H.265) et aux méthodes basées sur l'apprentissage. Enfin, nous étudions l'efficacité de HNeRV sur des tâches à valeur ajoutée, telles que la compression vidéo et le remplissage de vidéos (video inpainting). Une page de projet est disponible à l'adresse https://haochen-rye.github.io/HNeRV, et le code source est accessible sur https://github.com/haochen-rye/HNeRV.

HNeRV : Une Représentation Neurale Hybride pour les Vidéos | Articles de recherche récents | HyperAI