HyperAIHyperAI
il y a 2 mois

STM : Codage Spatio-Temporel et de Mouvement pour la Reconnaissance d'Actions

Boyuan Jiang; Mengmeng Wang; Weihao Gan; Wei Wu; Junjie Yan
STM : Codage Spatio-Temporel et de Mouvement pour la Reconnaissance d'Actions
Résumé

Les caractéristiques spatiotemporelles et de mouvement sont deux informations complémentaires et cruciales pour la reconnaissance d'actions dans les vidéos. Les méthodes récentes de pointe adoptent un flux de CNN 3D pour apprendre les caractéristiques spatiotemporelles et un autre flux de flux optique pour apprendre les caractéristiques de mouvement. Dans ce travail, nous visons à encoder efficacement ces deux types de caractéristiques dans un cadre 2D unifié. À cette fin, nous proposons tout d'abord un bloc STM (SpatioTemporal and Motion) qui comprend un module spatiotemporel par canal (CSTM) pour représenter les caractéristiques spatiotemporelles et un module de mouvement par canal (CMM) pour encoder efficacement les caractéristiques de mouvement. Nous remplaçons ensuite les blocs résiduels originaux de l'architecture ResNet par des blocs STM afin de former un réseau STM simple mais efficace en introduisant une très faible augmentation du coût de calcul. Des expériences approfondies montrent que le réseau STM proposé surpasse les méthodes actuelles de pointe sur des jeux de données liés au temps (comme Something-Something v1 & v2 et Jester) ainsi que sur des jeux de données liés aux scènes (comme Kinetics-400, UCF-101 et HMDB-51), grâce à l'encodage conjoint des caractéristiques spatiotemporelles et de mouvement.

STM : Codage Spatio-Temporel et de Mouvement pour la Reconnaissance d'Actions | Articles de recherche récents | HyperAI