il y a 17 jours

Réseau d'adaptation aux événements pour une reconnaissance d'actions améliorée

Yuan Tian, Yichao Yan, Guangtao Zhai, Guodong Guo, Zhiyong Gao

Résumé

La modélisation efficace des informations spatio-temporelles dans les vidéos est essentielle pour la reconnaissance d’actions. Afin d’atteindre cet objectif, les méthodes de pointe s’appuient généralement sur l’opérateur de convolution ainsi que sur des modules d’interaction denses, tels que les blocs non locaux. Toutefois, ces approches peinent à modéliser avec précision les événements variés présents dans les vidéos. D’une part, les convolutions utilisées ont des échelles fixes, ce qui limite leur capacité à s’adapter à des événements de tailles diverses. D’autre part, le paradigme d’interaction dense conduit à des performances sous-optimales, car les régions non pertinentes pour l’action introduisent un bruit supplémentaire dans la prédiction finale. Dans ce travail, nous proposons un cadre unifié pour la reconnaissance d’actions, visant à exploiter la nature dynamique du contenu vidéo grâce aux améliorations suivantes. Premièrement, lors de l’extraction des indices locaux, nous générons des noyaux spatio-temporels à échelle dynamique, permettant une adaptation fine aux événements divers. Deuxièmement, afin d’agréger précisément ces indices en une représentation globale de la vidéo, nous proposons d’extraire les interactions uniquement entre un petit nombre d’objets foreground sélectionnés via un modèle Transformer, conduisant ainsi à un paradigme creux (sparse). Nous désignons ce cadre proposé comme Event Adaptive Network (EAN), car les deux principaux composants sont adaptatifs au contenu vidéo d’entrée. Pour exploiter efficacement les mouvements à court terme au sein des segments locaux, nous introduisons un nouveau module, appelé Latent Motion Code (LMC), à la fois innovant et efficace, qui améliore davantage les performances du cadre. Des expériences étendues sur plusieurs jeux de données vidéo à grande échelle — notamment Something-to-Something V1 & V2, Kinetics et Diving48 — démontrent que nos modèles atteignent des performances de pointe ou compétitives à un coût faible en FLOPs. Le code source est disponible à l’adresse suivante : https://github.com/tianyuan168326/EAN-Pytorch.