HyperAIHyperAI
il y a 19 jours

MAR : Autoencodeurs masqués pour une reconnaissance d’actions efficace

Zhiwu Qing, Shiwei Zhang, Ziyuan Huang, Xiang Wang, Yuehuan Wang, Yiliang Lv, Changxin Gao, Nong Sang
MAR : Autoencodeurs masqués pour une reconnaissance d’actions efficace
Résumé

Les approches classiques de reconnaissance vidéo opèrent généralement sur l’intégralité des vidéos d’entrée, ce qui s’avère inefficace en raison de la redondance spatio-temporelle largement présente dans les vidéos. Les progrès récents dans le domaine du modélisation vidéo masquée, notamment VideoMAE, ont démontré la capacité des Vision Transformers (ViT) de base à reconstruire des contextes spatio-temporels pertinents à partir d’un contenu visuel limité. Inspirés par ces travaux, nous proposons Masked Action Recognition (MAR), une méthode qui réduit les calculs redondants en éliminant une proportion de patches et en ne traitant qu’une partie de la vidéo. MAR repose sur deux composants essentiels : un masquage par cellules en cours d’exécution et un classificateur d’interconnexion. Plus précisément, afin de permettre au ViT de capturer facilement les détails situés au-delà des patches visibles, nous introduisons un masquage par cellules en cours d’exécution, qui préserve les corrélations spatio-temporelles présentes dans les vidéos, garantissant ainsi que les patches situés à la même position spatiale soient observés successivement pour faciliter leur reconstruction. Par ailleurs, nous constatons qu’alors que les caractéristiques partiellement observées permettent de reconstruire de manière sémantiquement explicite les patches invisibles, elles échouent à assurer une classification précise. Pour résoudre ce problème, nous proposons un classificateur d’interconnexion, qui comble l’écart sémantique entre les caractéristiques encodées par le ViT pour la reconstruction et celles spécialisées pour la classification. L’approche proposée MAR réduit le coût computationnel du ViT de 53 %. Des expérimentations étendues montrent que MAR surpasse de manière significative les modèles ViT existants. En particulier, nous observons qu’un ViT-Large entraîné avec MAR dépasse, de manière convaincante, un ViT-Huge entraîné selon une méthode standard sur les jeux de données Kinetics-400 et Something-Something v2, tout en imposant un surcoût computationnel de seulement 14,5 % par rapport au ViT-Huge.