HyperAIHyperAI
il y a 17 jours

B2C-AFM : Modèle de Fusion d'Attention Co-Temporelle Bi-Directionnelle et Cross-Spatiale pour la Reconnaissance d'Actions Humaines

{and Jiakai Zhu, Wei Song, Qiwei Meng, Wen Wang, Xiangming Xi, Shiqiang Zhu, Tianlei Jin, Fangtai Guo}
Résumé

La reconnaissance d’actions humaines constitue un moteur essentiel de nombreuses applications d’interaction homme-machine. La plupart des recherches actuelles visent à améliorer la généralisation des modèles en intégrant plusieurs modalités homogènes, telles que les images RGB, les poses humaines et les champs optiques. Par ailleurs, il a été démontré que les interactions contextuelles et les signes linguistiques hors contexte dépendent à la fois de la catégorie de la scène et de l’individu humain lui-même. Ces tentatives d’intégration des caractéristiques d’apparence et des poses humaines ont montré des résultats prometteurs. Toutefois, en raison des erreurs spatiales dans les poses humaines et des ambiguïtés temporelles associées, les méthodes existantes souffrent d’une faible extensibilité, d’une robustesse limitée et de modèles sous-optimisés. Dans cet article, inspirés de l’hypothèse selon laquelle différentes modalités peuvent présenter une cohérence temporelle et une complémentarité spatiale, nous proposons un nouveau modèle de fusion par attention bidirectionnelle, co-temporelle et croisée dans l’espace, appelé B2C-AFM (Bi-directional Co-temporal and Cross-spatial Attention Fusion Model). Ce modèle se distingue par une stratégie de fusion asynchrone des caractéristiques multi-modales selon les dimensions temporelle et spatiale. En outre, nous introduisons une nouvelle représentation explicite orientée vers le mouvement, nommée Champs de flux de membres (Limb Flow Fields, Lff), afin de réduire les ambiguïtés temporelles liées aux poses humaines. Des expériences menées sur des jeux de données publiques valident nos contributions. Des études ablatives abondantes démontrent expérimentalement que B2C-AFM atteint des performances robustes sur des actions humaines vues comme non vues. Le code source est disponible à l’adresse suivante : https://github.com/gftww/B2C.git.