HyperAIHyperAI
il y a 17 jours

Modélisation des relations spatio-temporelles pour la reconnaissance d’actions à faible exemple

Anirudh Thatipelli, Sanath Narayan, Salman Khan, Rao Muhammad Anwer, Fahad Shahbaz Khan, Bernard Ghanem
Modélisation des relations spatio-temporelles pour la reconnaissance d’actions à faible exemple
Résumé

Nous proposons un nouveau cadre de reconnaissance d’actions à faible exemplaire, appelé STRM, qui améliore la discriminabilité des caractéristiques spécifiques aux classes tout en apprenant simultanément des représentations temporelles d’ordre supérieur. L’essence de notre approche réside dans un nouveau module d’enrichissement spatio-temporel, qui agrège les contextes spatiaux et temporels grâce à deux sous-modules spécialisés : un sous-module d’enrichissement local au niveau des patchs et un sous-module d’enrichissement global au niveau des trames. L’enrichissement au niveau local des patchs capte les caractéristiques basées sur l’apparence des actions, tandis que l’enrichissement au niveau global des trames encode explicitement le contexte temporel large, permettant ainsi de capturer les caractéristiques pertinentes des objets au fil du temps. Les représentations spatio-temporelles enrichies ainsi obtenues sont ensuite utilisées pour apprendre le matching relationnel entre les sous-séquences d’actions interrogation et support. Nous introduisons également un classificateur de similarité entre requête et classe basé sur les caractéristiques enrichies au niveau des patchs, afin d’améliorer la discriminabilité des caractéristiques spécifiques aux classes en renforçant l’apprentissage des caractéristiques à différentes étapes du cadre proposé. Des expériences sont menées sur quatre benchmarks de reconnaissance d’actions à faible exemplaire : Kinetics, SSv2, HMDB51 et UCF101. Une étude ablation exhaustive met en évidence les bénéfices apportés par les contributions proposées. En outre, notre approche établit un nouveau record sur les quatre benchmarks. Sur le défi SSv2, elle atteint une amélioration absolue de $3,5\%$ en précision de classification par rapport à la meilleure méthode existante dans la littérature. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/Anirudh257/strm.

Modélisation des relations spatio-temporelles pour la reconnaissance d’actions à faible exemple | Articles de recherche récents | HyperAI