HyperAIHyperAI
il y a 17 jours

MVFNet : Réseau de fusion multi-vues pour une reconnaissance vidéo efficace

Wenhao Wu, Dongliang He, Tianwei Lin, Fu Li, Chuang Gan, Errui Ding
MVFNet : Réseau de fusion multi-vues pour une reconnaissance vidéo efficace
Résumé

Classiquement, la modélisation spatio-temporelle et sa complexité constituent les deux sujets de recherche les plus intensivement étudiés dans le domaine de la reconnaissance d’actions vidéo. Les méthodes les plus avancées actuellement disponibles ont atteint une précision remarquable, indépendamment de leur complexité ; toutefois, les solutions efficaces de modélisation spatio-temporelle restent légèrement inférieures en performance. Dans cet article, nous nous efforçons d’obtenir simultanément efficacité et efficacité. Tout d’abord, en plus de traiter traditionnellement les trames vidéo de dimension H × W × T comme un signal spatio-temporel (en considérant le plan spatial Hauteur-Largeur), nous proposons de modéliser également la vidéo à partir des deux autres plans : Hauteur-Temps et Largeur-Temps, afin de capturer de manière exhaustive les dynamiques vidéo. Ensuite, notre modèle est conçu à partir de squelettes basés sur des CNN 2D, et sa complexité est soigneusement prise en compte dès la conception. Plus précisément, nous introduisons un nouveau module de fusion multi-vue (MVF) qui exploite les dynamiques vidéo à l’aide de convolutions séparables, garantissant ainsi une efficacité élevée. Ce module est plug-and-play et peut être intégré directement dans des CNN 2D existants pour former un modèle simple mais très efficace, appelé MVFNet. En outre, MVFNet peut être considéré comme un cadre généralisé de modélisation vidéo, capable de se spécialiser dans des méthodes existantes telles que C2D, SlowOnly et TSM selon les configurations choisies. Des expériences étendues ont été menées sur des benchmarks populaires (à savoir Something-Something V1 & V2, Kinetics, UCF-101 et HMDB-51) afin de démontrer son avantage. Le modèle proposé, MVFNet, atteint des performances de pointe tout en conservant la complexité associée aux CNN 2D.