HyperAIHyperAI
il y a 3 mois

TDN : Réseaux de différences temporelles pour une reconnaissance d’actions efficace

Limin Wang, Zhan Tong, Bin Ji, Gangshan Wu
TDN : Réseaux de différences temporelles pour une reconnaissance d’actions efficace
Résumé

La modélisation temporelle reste un défi majeur pour la reconnaissance d’actions dans les vidéos. Pour atténuer ce problème, ce papier présente une nouvelle architecture vidéo, nommée Temporal Difference Network (TDN), qui se concentre sur la capture d’informations temporelles à plusieurs échelles afin d’assurer une reconnaissance d’actions efficace. Le cœur de notre TDN réside dans la conception d’un module temporel efficace (TDM) en exploitant explicitement un opérateur de différence temporelle, tout en évaluant de manière systématique son impact sur la modélisation du mouvement à court et à long terme. Pour capturer pleinement les informations temporelles sur l’ensemble de la vidéo, notre TDN repose sur un paradigme à deux niveaux de modélisation par différence. Plus précisément, pour la modélisation du mouvement local, la différence temporelle entre cadres consécutifs est utilisée pour fournir aux réseaux CNN 2D des motifs de mouvement plus fins, tandis que pour la modélisation du mouvement global, la différence temporelle entre segments est intégrée afin de capter la structure à longue portée pour l’excitation des caractéristiques de mouvement. La TDN propose un cadre de modélisation temporelle simple et fondé sur des principes solides, pouvant être instancié avec des CNN existants à un coût computationnel marginal. Notre TDN établit un nouveau record sur les jeux de données Something-Something V1 & V2, et atteint des performances équivalentes aux meilleures résultats sur le jeu de données Kinetics-400. En outre, nous menons des études d’ablation approfondies et présentons des visualisations des résultats de notre TDN, dans l’espoir d’offrir une analyse éclairante sur la modélisation par différence temporelle. Le code source est disponible à l’adresse suivante : https://github.com/MCG-NJU/TDN.