HyperAIHyperAI
il y a 17 jours

Approfondir la reconnaissance d’actions à partir de squelettes en une seule tentative avec des occlusions diverses

Kunyu Peng, Alina Roitberg, Kailun Yang, Jiaming Zhang, Rainer Stiefelhagen
Approfondir la reconnaissance d’actions à partir de squelettes en une seule tentative avec des occlusions diverses
Résumé

Les occlusions sont des perturbations universelles présentes en permanence dans le monde réel. En particulier pour les représentations creuses, telles que les squelettes humains, quelques points occultés peuvent compromettre gravement la continuité géométrique et temporelle, affectant ainsi fortement les résultats. Pourtant, la recherche sur la reconnaissance à faible données à partir de séquences de squelettes, comme la reconnaissance d’actions en une seule vue (one-shot action recognition), ne prend pas explicitement en compte les occlusions malgré leur omniprésence au quotidien. Dans ce travail, nous abordons de manière explicite les occlusions corporelles dans le cadre de la reconnaissance d’actions à partir de squelettes en une seule vue (Skeleton-based One-shot Action Recognition, SOAR). Nous considérons principalement deux types d’occlusions : 1) des occlusions aléatoires, et 2) des occlusions plus réalistes causées par divers objets du quotidien, que nous générons en projetant des modèles 3D existants de meubles IKEA dans le système de coordonnées caméra des squelettes 3D, en variant les paramètres géométriques. Nous exploitons le pipeline proposé pour masquer partiellement des segments de séquences de squelettes provenant de trois jeux de données populaires de reconnaissance d’actions, et formalisons ainsi la première référence (benchmark) pour le SOAR à partir de poses partiellement occluées. Une caractéristique clé de notre benchmark réside dans les occlusions plus réalistes générées par des objets du quotidien, car même dans la reconnaissance standard à partir de squelettes 3D, seules des articulations manquantes aléatoirement étaient prises en compte jusqu’à présent. Nous réévaluons les architectures les plus avancées actuelles pour le SOAR à la lumière de cette nouvelle tâche, et introduisons par ailleurs Trans4SOAR — un nouveau modèle basé sur les transformateurs, qui exploite trois flux de données et un mécanisme de fusion d’attention mixte afin de atténuer les effets néfastes des occlusions. Bien que nos expériences montrent une baisse nette de précision en présence de parties manquantes du squelette, cet effet est moindre avec Trans4SOAR, qui surpasse toutes les autres architectures sur l’ensemble des jeux de données. Bien que notre travail se concentre spécifiquement sur les occlusions, Trans4SOAR atteint également l’état de l’art sur le SOAR standard sans occlusion, dépassant la meilleure approche publiée de 2,85 % sur NTU-120.