HyperAIHyperAI
il y a 17 jours

Apprentissage du tempo visuel piloté par le mouvement pour la reconnaissance d’actions basée sur la vidéo

Yuanzhong Liu, Junsong Yuan, Zhigang Tu
Apprentissage du tempo visuel piloté par le mouvement pour la reconnaissance d’actions basée sur la vidéo
Résumé

Le tempo visuel caractérise la dynamique et l’échelle temporelle d’une action, ce qui est particulièrement utile pour distinguer des actions humaines présentant des similitudes élevées en termes de dynamique visuelle et d’apparence. Les méthodes précédentes captent le tempo visuel soit en échantillonnant les vidéos brutes à plusieurs fréquences, ce qui nécessite un réseau multicouche coûteux pour traiter chaque fréquence, soit en échantillonnant hiérarchiquement les caractéristiques du modèle de base, ce qui repose fortement sur des caractéristiques de haut niveau et néglige ainsi les dynamiques temporelles fines. Dans ce travail, nous proposons un Module de Corrélation Temporelle (TCM), facilement intégrable de manière plug-and-play dans les modèles actuels de reconnaissance d’actions, afin d’extraire le tempo visuel des actions à partir des caractéristiques de bas niveau du modèle de base, au niveau d’une seule couche. Plus précisément, notre TCM comporte deux composants principaux : un Module de Dynamique Temporelle Multéchelle (MTDM) et un Module d’Attention Temporelle (TAM). Le MTDM applique une opération de corrélation pour apprendre les dynamiques temporelles fines au niveau pixel par pixel, tant pour les actions à tempo rapide que lent. Le TAM met de manière adaptative l’accent sur les caractéristiques expressives tout en supprimant les caractéristiques peu pertinentes, en analysant l’information globale à travers divers tempos. Des expériences étendues menées sur plusieurs benchmarks de reconnaissance d’actions, tels que Something-Something V1 & V2, Kinetics-400, UCF-101 et HMDB-51, démontrent que le TCM proposé est efficace pour améliorer significativement les performances des modèles existants de reconnaissance d’actions basés sur des vidéos. Le code source est mis à disposition publiquement à l’adresse suivante : https://github.com/yzfly/TCM.

Apprentissage du tempo visuel piloté par le mouvement pour la reconnaissance d’actions basée sur la vidéo | Articles de recherche récents | HyperAI