HyperAIHyperAI
il y a 17 jours

DSANet : Réseau d’agrégation de segments dynamiques pour l’apprentissage des représentations au niveau vidéo

Wenhao Wu, Yuxiang Zhao, Yanwu Xu, Xiao Tan, Dongliang He, Zhikang Zou, Jin Ye, Yingying Li, Mingde Yao, Zichao Dong, Yifeng Shi
DSANet : Réseau d’agrégation de segments dynamiques pour l’apprentissage des représentations au niveau vidéo
Résumé

La modélisation temporelle à longue et à courte portée constitue deux aspects complémentaires et essentiels de la reconnaissance vidéo. La plupart des méthodes de pointe se concentrent principalement sur la modélisation spatio-temporelle à courte portée, puis combinent les prédictions au niveau des snippets (segments courts) par moyennage afin d’obtenir la prédiction finale au niveau vidéo. En conséquence, leurs prédictions au niveau vidéo ne prennent pas en compte les caractéristiques spatio-temporelles relatives à l’évolution du contenu vidéo le long de la dimension temporelle. Dans ce travail, nous introduisons un nouveau module, appelé Dynamic Segment Aggregation (DSA), conçu pour capturer les relations entre les snippets. Plus précisément, nous proposons de générer un noyau dynamique pour une opération de convolution, permettant d’aggréger de manière adaptative les informations temporelles à longue portée entre snippets adjacents. Le module DSA est un composant efficace, facile à intégrer (plug-and-play), et peut être combiné avec des modèles existants basés sur des clips (tels que TSM, I3D) afin de réaliser une modélisation à longue portée puissante avec un surcoût minimal. L’architecture vidéo finale, baptisée DSANet, est ainsi obtenue. Nous menons des expérimentations étendues sur plusieurs benchmarks de reconnaissance vidéo (Mini-Kinetics-200, Kinetics-400, Something-Something V1 et ActivityNet) afin de démontrer son avantage. Notre module DSA s’avère bénéfique de manière significative pour divers modèles de reconnaissance vidéo. Par exemple, lorsqu’il est intégré à I3D avec un réseau ResNet-50, le taux de précision top-1 sur Kinetics-400 passe de 74,9 % à 78,2 %. Le code source est disponible à l’adresse suivante : https://github.com/whwu95/DSANet.

DSANet : Réseau d’agrégation de segments dynamiques pour l’apprentissage des représentations au niveau vidéo | Articles de recherche récents | HyperAI