HyperAIHyperAI
il y a 16 jours

Augmentation de données par mélange conjoint pour la reconnaissance d'actions basée sur les squelettes

{Zengfu Wang, Linhua Xiang}
Résumé

La reconnaissance d’actions basée sur les squelettes est particulièrement utile pour comprendre le comportement humain dans les vidéos, et a suscité un intérêt croissant ces dernières années en tant que domaine de recherche clé dans le domaine de la reconnaissance d’actions. Les recherches actuelles se concentrent sur la conception d’algorithmes plus avancés afin d’extraire de manière plus efficace les informations spatio-temporelles à partir des données squelettiques. Toutefois, en raison du faible volume de données des jeux de données existants de squelettes et du manque de méthodes d’augmentation de données efficaces, les modèles sont facilement sujets au surapprentissage lors de l’entraînement. Pour relever ce défi, nous proposons une méthode d’augmentation de données basée sur le mélange, nommée Joint Mixing Data Augmentation (JMDA), capable d’améliorer de manière générale l’efficacité et la robustesse de divers algorithmes de reconnaissance d’actions basés sur les squelettes.En ce qui concerne l’information spatiale, nous introduisons SpatialMix (SM), une méthode qui projette les données discrètes 3D du squelette original dans un espace 2D. Ensuite, SM réalise un mélange des informations spatiales entre deux échantillons aléatoires pendant le processus d’entraînement, permettant ainsi une augmentation de données basée sur l’espace. Quant à l’information temporelle, nous proposons TemporalMix (TM). En exploitant la continuité temporelle présente dans les données squelettiques, nous appliquons une opération de redimensionnement temporel aux données squelettiques initiales, puis fusionnons deux échantillons aléatoires durant l’entraînement pour réaliser une augmentation de données basée sur le temps.Par ailleurs, nous analysons le problème de désalignement des caractéristiques (Feature Mismatch, FM) causé par l’introduction de l’augmentation de données par mélange dans les données squelettiques. À cette fin, nous proposons une nouvelle méthode de prétraitement des données appelée Feature Alignment (FA), qui permet efficacement de résoudre ce problème et d’améliorer les performances du modèle. En outre, nous introduisons une nouvelle stratégie d’entraînement, nommée Joint Training Strategy (JTS), qui combine plusieurs méthodes d’augmentation de données basées sur le mélange afin d’optimiser davantage les performances du modèle.Plus précisément, la méthode JMDA proposée est plug-and-play et largement applicable aux modèles de reconnaissance d’actions basés sur les squelettes. De plus, son application n’entraîne aucune augmentation du nombre de paramètres du modèle et impose pratiquement aucun coût supplémentaire en entraînement. Nous menons des expériences étendues sur les jeux de données NTU RGB+D 60 et NTU RGB+D 120 afin de démontrer l’efficacité et la robustesse de la méthode JMDA sur plusieurs algorithmes de reconnaissance d’actions basés sur les squelettes couramment utilisés.

Augmentation de données par mélange conjoint pour la reconnaissance d'actions basée sur les squelettes | Articles de recherche récents | HyperAI