SkeleTR : Vers une reconnaissance d’actions basée sur les squelettes dans des environnements réels

Nous présentons SkeleTR, un nouveau cadre pour la reconnaissance d’actions basée sur les squelettes. Contrairement aux travaux antérieurs, qui se concentrent principalement sur des environnements contrôlés, notre approche cible des scénarios « in-the-wild » caractérisés par un nombre variable de personnes et diverses formes d’interactions entre individus. SkeleTR repose sur un paradigme en deux étapes : il modélise d’abord les dynamiques intra-personnelles des squelettes pour chaque séquence de squelette à l’aide de convolutions sur graphe, puis utilise des encodeurs Transformer empilés pour capturer les interactions entre personnes, essentielles à la reconnaissance d’actions dans des environnements réels. Pour atténuer l’impact négatif des associations de squelettes inexactes, SkeleTR prend en entrée des courtes séquences relatives de squelettes et augmente leur nombre. En tant que solution unifiée, SkeleTR peut être directement appliqué à plusieurs tâches de reconnaissance d’actions basées sur les squelettes, notamment la classification d’actions au niveau de la vidéo, la détection d’actions au niveau des instances et la reconnaissance d’activités au niveau du groupe. Il permet également l’apprentissage transféré et l’entraînement conjoint sur différentes tâches et jeux de données, ce qui conduit à une amélioration des performances. Évalué sur divers benchmarks de reconnaissance d’actions basée sur les squelettes, SkeleTR atteint des résultats de pointe (state-of-the-art).