HyperAIHyperAI

Command Palette

Search for a command to run...

Gate-Shift-Fuse pour la reconnaissance d'actions vidéo

Swathikiran Sudhakaran Sergio Escalera Oswald Lanz

Résumé

Les réseaux de neurones convolutifs (CNN) constituent les modèles de référence pour la reconnaissance d’images. Toutefois, les CNN 3D, qui représentent une extension directe des CNN 2D pour la reconnaissance d’actions vidéo, n’ont pas atteint le même niveau de succès sur les benchmarks standards de reconnaissance d’actions. L’une des principales raisons de cette performance réduite des CNN 3D réside dans leur complexité computationnelle accrue, qui exige des jeux de données annotés de grande ampleur pour une entraînement efficace à grande échelle. Des approches de factorisation de noyaux 3D ont été proposées afin de réduire cette complexité. Toutefois, les méthodes existantes de factorisation de noyaux reposent sur des techniques prédéfinies et rigides. Dans cet article, nous proposons GSF (Gate-Shift-Fuse), un nouveau module d’extraction de caractéristiques spatio-temporelles qui contrôle les interactions au sein de la décomposition spatio-temporelle et apprend à acheminer de manière adaptative les caractéristiques au fil du temps, tout en les combinant de façon dépendante des données. GSF exploite une grille d’activation spatiale groupée pour décomposer le tenseur d’entrée et un poids de canal pour fusionner les tenseurs décomposés. Ce module peut être intégré à des CNN 2D existants afin de les transformer en extracteurs de caractéristiques spatio-temporelles efficaces et performants, avec un surcoût négligeable en paramètres et en calcul. Nous menons une analyse approfondie de GSF à l’aide de deux familles populaires de CNN 2D, et obtenons des résultats au niveau de l’état de l’art ou compétitifs sur cinq benchmarks standards de reconnaissance d’actions.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp