HyperAIHyperAI

Command Palette

Search for a command to run...

STM : Codage Spatio-Temporel et de Mouvement pour la Reconnaissance d'Actions

Boyuan Jiang MengMeng Wang Weihao Gan Wei Wu Junjie Yan

Résumé

Les caractéristiques spatiotemporelles et de mouvement sont deux informations complémentaires et cruciales pour la reconnaissance d'actions dans les vidéos. Les méthodes récentes de pointe adoptent un flux de CNN 3D pour apprendre les caractéristiques spatiotemporelles et un autre flux de flux optique pour apprendre les caractéristiques de mouvement. Dans ce travail, nous visons à encoder efficacement ces deux types de caractéristiques dans un cadre 2D unifié. À cette fin, nous proposons tout d'abord un bloc STM (SpatioTemporal and Motion) qui comprend un module spatiotemporel par canal (CSTM) pour représenter les caractéristiques spatiotemporelles et un module de mouvement par canal (CMM) pour encoder efficacement les caractéristiques de mouvement. Nous remplaçons ensuite les blocs résiduels originaux de l'architecture ResNet par des blocs STM afin de former un réseau STM simple mais efficace en introduisant une très faible augmentation du coût de calcul. Des expériences approfondies montrent que le réseau STM proposé surpasse les méthodes actuelles de pointe sur des jeux de données liés au temps (comme Something-Something v1 & v2 et Jester) ainsi que sur des jeux de données liés aux scènes (comme Kinetics-400, UCF-101 et HMDB-51), grâce à l'encodage conjoint des caractéristiques spatiotemporelles et de mouvement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp