HyperAIHyperAI
il y a 8 jours

Exploration de l'analyse multi-fréquence spatio-temporelle pour la prédiction vidéo haute fidélité et à cohérence temporelle

Beibei Jin, Yu Hu, Qiankun Tang, Jingyu Niu, Zhiping Shi, Yinhe Han, Xiaowei Li
Exploration de l'analyse multi-fréquence spatio-temporelle pour la prédiction vidéo haute fidélité et à cohérence temporelle
Résumé

La prédiction vidéo est une tâche de prédiction dense au niveau des pixels, visant à inférer des cadres futurs à partir de cadres passés. La perte de détails d’apparence et le flou de mouvement restent deux problèmes majeurs des modèles prédictifs actuels, entraînant des distorsions d’image et une incohérence temporelle. Dans cet article, nous soulignons la nécessité d’explorer une analyse multi-fréquentielle pour traiter ces deux défis. Inspirés par la capacité du Système Visuel Humain (HVS) à décomposer les signaux selon différentes bandes de fréquence, nous proposons un réseau de prédiction vidéo basé sur une analyse multi-niveaux par ondelettes, permettant de traiter de manière unifiée les informations spatiales et temporelles. Plus précisément, la transformation en ondelettes discrète spatiale multi-niveaux décompose chaque cadre vidéo en sous-bandes anisotropes à différentes fréquences, enrichissant ainsi l’information structurelle tout en préservant les détails fins. D’un autre côté, la transformation en ondelettes discrète temporelle multi-niveaux, appliquée sur l’axe temporel, décompose la séquence de cadres en groupes de sous-bandes de fréquences variées, permettant ainsi de capturer avec précision les mouvements multi-fréquentiels à un taux de trame fixe. Des expériences étendues sur diverses bases de données démontrent que notre modèle obtient des améliorations significatives en termes de fidélité et de cohérence temporelle par rapport aux méthodes de pointe.

Exploration de l'analyse multi-fréquence spatio-temporelle pour la prédiction vidéo haute fidélité et à cohérence temporelle | Articles de recherche récents | HyperAI