HyperAIHyperAI
il y a 11 jours

FFNeRV : Représentations neurales par trames guidées par le flux pour les vidéos

Joo Chan Lee, Daniel Rho, Jong Hwan Ko, Eunbyung Park
FFNeRV : Représentations neurales par trames guidées par le flux pour les vidéos
Résumé

Les champs neuronaux, également appelés représentations implicites basées sur les coordonnées, ont démontré une capacité remarquable à représenter, générer et manipuler diverses formes de signaux. Toutefois, pour la représentation vidéo, la méthode consistant à mapper des coordonnées pixel par pixel vers des couleurs RGB se distingue par une performance de compression relativement faible, ainsi qu'une convergence lente et une vitesse d'inférence réduite. Une alternative récente, la représentation vidéo par trames, qui associe une coordonnée temporelle à une trame entière, s'est imposée comme une méthode prometteuse, offrant une meilleure taux de compression et une vitesse d'encodage accrue. Bien que prometteuse, cette approche n'a pas encore atteint les performances des algorithmes de compression vidéo les plus avancés. Dans ce travail, nous proposons FFNeRV, une nouvelle méthode permettant d'intégrer des informations de flux dans les représentations par trames, afin d'exploiter la redondance temporelle entre les trames des vidéos, inspirée des codecs vidéo standards. En outre, nous introduisons une architecture entièrement convolutive, rendue possible par des grilles temporelles unidimensionnelles, améliorant ainsi la continuité des caractéristiques spatiales. Les résultats expérimentaux montrent que FFNeRV obtient les meilleures performances en compression vidéo et en interpolation de trames parmi les méthodes utilisant des représentations par trames ou des champs neuronaux. Pour réduire davantage la taille du modèle, nous avons conçu une architecture convolutive plus compacte en utilisant des convolutions groupées et ponctuelles. Grâce à des techniques de compression de modèle, notamment l'entraînement conscient de la quantification et le codage d'entropie, FFNeRV surpasser largement les codecs vidéo standards couramment utilisés (H.264 et HEVC) et atteint des performances comparables aux algorithmes de compression vidéo les plus récents.

FFNeRV : Représentations neurales par trames guidées par le flux pour les vidéos | Articles de recherche récents | HyperAI