il y a 17 jours

Gate-Shift-Fuse pour la reconnaissance d'actions vidéo

Swathikiran Sudhakaran, Sergio Escalera, Oswald Lanz

Résumé

Les réseaux de neurones convolutifs (CNN) constituent les modèles de référence pour la reconnaissance d’images. Toutefois, les CNN 3D, qui représentent une extension directe des CNN 2D pour la reconnaissance d’actions vidéo, n’ont pas atteint le même niveau de succès sur les benchmarks standards de reconnaissance d’actions. L’une des principales raisons de cette performance réduite des CNN 3D réside dans leur complexité computationnelle accrue, qui exige des jeux de données annotés de grande ampleur pour une entraînement efficace à grande échelle. Des approches de factorisation de noyaux 3D ont été proposées afin de réduire cette complexité. Toutefois, les méthodes existantes de factorisation de noyaux reposent sur des techniques prédéfinies et rigides. Dans cet article, nous proposons GSF (Gate-Shift-Fuse), un nouveau module d’extraction de caractéristiques spatio-temporelles qui contrôle les interactions au sein de la décomposition spatio-temporelle et apprend à acheminer de manière adaptative les caractéristiques au fil du temps, tout en les combinant de façon dépendante des données. GSF exploite une grille d’activation spatiale groupée pour décomposer le tenseur d’entrée et un poids de canal pour fusionner les tenseurs décomposés. Ce module peut être intégré à des CNN 2D existants afin de les transformer en extracteurs de caractéristiques spatio-temporelles efficaces et performants, avec un surcoût négligeable en paramètres et en calcul. Nous menons une analyse approfondie de GSF à l’aide de deux familles populaires de CNN 2D, et obtenons des résultats au niveau de l’état de l’art ou compétitifs sur cinq benchmarks standards de reconnaissance d’actions.