HyperAIHyperAI
il y a 12 jours

Modélisation du tempo visuel relatif pour la reconnaissance d’actions basée sur les squelettes et auto-supervisée

{Guangcan Liu, Zhengtao Yu, Hu Han, Yisheng Zhu}
Modélisation du tempo visuel relatif pour la reconnaissance d’actions basée sur les squelettes et auto-supervisée
Résumé

Le tempo visuel caractérise la dynamique et l’évolution temporelle, ce qui permet de décrire efficacement les actions. Les approches récentes effectuent directement la prédiction du tempo visuel sur des séquences de squelettes, mais celles-ci peuvent souffrir d’un manque de représentation des caractéristiques. Dans ce travail, nous observons que le tempo visuel relatif s’aligne davantage sur l’intuition humaine, offrant ainsi des signaux de supervision plus efficaces. À partir de cette observation, nous proposons un nouveau cadre d’apprentissage contrastif de tempo visuel relatif pour la représentation des actions à partir de squelettes (RVTCLR). Plus précisément, nous concevons une tâche d’apprentissage du tempo visuel relatif (RVTL) afin d’explorer les informations de mouvement au sein des clips vidéo, ainsi qu’une tâche d’homogénéité d’apparence (AC) pour apprendre simultanément les informations d’apparence, aboutissant à des caractéristiques spatio-temporelles plus représentatives. En outre, les données de séquences de squelettes sont beaucoup plus éparse que les données RGB, ce qui conduit le réseau à apprendre des raccourcis et à s’overfit sur des informations de bas niveau telles que les échelles des squelettes. Pour apprendre des sémantiques de haut niveau, nous proposons également une nouvelle branche d’homogénéité de distribution (DC), composée de trois éléments : une augmentation de données spécifique au squelette (SDA), un module d’encodage fine-grained du squelette (FSEM) et une fonction de perte de diversité consciente de la distribution (DD). Nous désignons notre méthode complète (RVTCLR avec DC) sous le nom de RVTCLR+. Des expériences étendues sur les jeux de données NTU RGB+D 60 et NTU RGB+D 120 montrent que notre RVTCLR+ atteint des résultats compétitifs par rapport aux méthodes de pointe. Le code est disponible à l’adresse suivante : https://github.com/Zhuysheng/RVTCLR.