HyperAIHyperAI
il y a 2 mois

BABEL : Corps, Action et Comportement avec des Étiquettes en Anglais

Punnakkal, Abhinanda R. ; Chandrasekaran, Arjun ; Athanasiou, Nikos ; Quiros-Ramirez, Alejandra ; Black, Michael J.
BABEL : Corps, Action et Comportement avec des Étiquettes en Anglais
Résumé

Comprendre la sémantique du mouvement humain -- le quoi, comment et pourquoi du mouvement -- est un problème important qui nécessite des ensembles de données d'actions humaines avec des étiquettes sémantiques. Les ensembles de données existants adoptent l'une ou l'autre des deux approches. Les grands ensembles de données vidéo contiennent de nombreuses étiquettes d'actions mais ne disposent pas de mouvements humains 3D véritables. En revanche, les ensembles de données de capture de mouvement (mocap) ont des mouvements corporels précis mais sont limités à un petit nombre d'actions. Pour remédier à cela, nous présentons BABEL, un grand ensemble de données doté d'étiquettes linguistiques décrivant les actions effectuées dans les séquences mocap. BABEL comprend des étiquettes d'actions pour environ 43 heures de séquences mocap provenant d'AMASS. Les étiquettes d'actions sont à deux niveaux d'abstraction -- les étiquettes de séquence décrivent l'action globale dans la séquence, tandis que les étiquettes de cadre décrivent toutes les actions présentes dans chaque cadre de la séquence. Chaque étiquette de cadre est précisément alignée avec la durée de l'action correspondante dans la séquence mocap, et plusieurs actions peuvent se chevaucher. BABEL contient plus de 28 000 étiquettes de séquence et plus de 63 000 étiquettes de cadre, appartenant à plus de 250 catégories d'actions uniques. Les étiquettes issues de BABEL peuvent être utilisées pour des tâches telles que la reconnaissance d'actions, la localisation temporelle des actions, la synthèse du mouvement, etc. Pour démontrer la valeur de BABEL comme référence, nous évaluons les performances des modèles sur la reconnaissance d'actions 3D. Nous montrons que BABEL pose des défis intéressants en apprentissage applicables aux scénarios réels et peut servir de benchmark utile pour mesurer les progrès en reconnaissance d'actions 3D. L'ensemble de données, la méthode baseline et le code d'évaluation sont mis à disposition pour des fins académiques sur https://babel.is.tue.mpg.de/.