Apprentissage cross-modale avec une attention déformable 3D pour la reconnaissance d'actions

Un défi majeur dans la reconnaissance d’actions basée sur l’image réside dans l’intégration des caractéristiques spatio-temporelles issues de deux ou plusieurs modalités hétérogènes en une seule représentation fonctionnelle. Dans cette étude, nous proposons un nouveau transformateur déformable 3D pour la reconnaissance d’actions, doté de champs réceptifs spatio-temporels adaptatifs et d’un schéma d’apprentissage cross-modale. Le transformateur déformable 3D se compose de trois modules d’attention : déformabilité 3D, attention à pas spatial joint, et attention à pas temporel. Les deux jetons cross-modaux sont introduits dans le module d’attention déformable 3D afin de générer un jeton d’attention cross-modale capturant une corrélation spatio-temporelle réfléchie. L’attention à pas spatial joint est appliquée pour combiner spatialement les jetons d’attention et les jetons de posture. L’attention à pas temporel réduit de manière temporelle le nombre de jetons d’entrée dans le module d’attention, tout en permettant l’apprentissage d’une expression temporelle sans nécessiter l’utilisation simultanée de tous les jetons. Le transformateur déformable itère L fois, et combine le dernier jeton cross-modale pour la classification. Le transformateur déformable 3D proposé a été évalué sur les jeux de données NTU60, NTU120, FineGYM et PennAction, et a obtenu des résultats supérieurs ou équivalents aux méthodes de pointe pré-entraînées, même en l’absence d’un processus de pré-entraînement. En outre, en visualisant les articulations et les corrélations importantes pendant la reconnaissance d’actions grâce à l’attention spatiale sur les articulations et l’attention à pas temporel, cette étude met en évidence la possibilité d’atteindre une capacité explicative potentielle pour la reconnaissance d’actions.