HyperAIHyperAI
il y a 2 mois

Réseau d'Attention Interactive Spatio-temporelle pour la Reconnaissance Générale des Actions Interactives Basées sur le Squelette

Wen, Yuhang ; Tang, Zixuan ; Pang, Yunsheng ; Ding, Beichen ; Liu, Mengyuan
Réseau d'Attention Interactive Spatio-temporelle pour la Reconnaissance Générale des Actions Interactives Basées sur le Squelette
Résumé

La reconnaissance des actions interactives joue un rôle crucial dans l'interaction et la collaboration homme-robot. Les méthodes précédentes utilisent la fusion tardive et le mécanisme de co-attention pour capturer les relations interactives, ce qui limite leur capacité d'apprentissage ou rend leur adaptation inefficace à un nombre plus important d'entités en interaction. En supposant que les a priori de chaque entité sont déjà connus, ces méthodes manquent également d'évaluations dans un cadre plus général abordant la diversité des sujets. Pour résoudre ces problèmes, nous proposons un réseau d'attention spatio-temporelle interactive (ISTA-Net), qui modélise simultanément les relations spatiales, temporelles et interactives. Plus précisément, notre réseau comprend un tokeniseur pour partitionner les tokens spatio-temporels interactifs (ISTs), une méthode unifiée pour représenter les mouvements de plusieurs entités diverses. En étendant la dimension des entités, les ISTs fournissent de meilleures représentations interactives. Pour apprendre conjointement le long des trois dimensions des ISTs, des blocs d'attention auto-multi-têtes intégrés avec des convolutions 3D sont conçus pour capturer les corrélations inter-tokens. Lorsqu'il s'agit de modéliser ces corrélations, un ordre strict des entités est généralement peu pertinent pour la reconnaissance des actions interactives. À cet égard, une méthode de réarrangement d'entités est proposée pour éliminer l'ordre dans les ISTs pour des entités interchangeables. Des expériences approfondies sur quatre jeux de données vérifient l'efficacité de l'ISTA-Net en surpassant les méthodes de pointe actuelles. Notre code est disponible au public sur https://github.com/Necolizer/ISTA-Net.Note : - "Interactive Spatiotemporal Token Attention Network" est traduit par "réseau d'attention spatio-temporelle interactive" (ISTA-Net).- "Interactive Spatiotemporal Tokens" est traduit par "tokens spatio-temporels interactifs" (ISTs).

Réseau d'Attention Interactive Spatio-temporelle pour la Reconnaissance Générale des Actions Interactives Basées sur le Squelette | Articles de recherche récents | HyperAI