HyperAIHyperAI
il y a 2 mois

NTU RGB+D 120 : Une grande base de référence pour la compréhension des activités humaines en 3D

Liu, Jun ; Shahroudy, Amir ; Perez, Mauricio ; Wang, Gang ; Duan, Ling-Yu ; Kot, Alex C.
NTU RGB+D 120 : Une grande base de référence pour la compréhension des activités humaines en 3D
Résumé

Les recherches sur l'analyse des activités humaines basée sur la profondeur ont obtenu des performances exceptionnelles et démontré l'efficacité de la représentation 3D pour la reconnaissance d'actions. Les benchmarks existants pour la reconnaissance d'actions basés sur la profondeur et sur les données RGB+D présentent plusieurs limitations, notamment le manque d'échantillons d'entraînement à grande échelle, un nombre réeliste de catégories de classes distinctes, une diversité dans les vues caméra, des conditions environnementales variées et une variété de sujets humains. Dans cette étude, nous présentons un jeu de données à grande échelle pour la reconnaissance d'actions humaines RGB+D, collecté auprès de 106 sujets distincts et contenant plus de 114 000 échantillons vidéo et 8 millions d'images. Ce jeu de données comprend 120 classes d'actions différentes, incluant des activités quotidiennes, mutuelles et liées à la santé. Nous évaluons les performances d'une série de méthodes existantes d'analyse d'activités en 3D sur ce jeu de données et montrons l'avantage de l'utilisation des méthodes d'apprentissage profond pour la reconnaissance d'actions en 3D. De plus, nous explorons un nouveau problème de reconnaissance d'activités en 3D par apprentissage à partir d'un seul exemple (one-shot) sur notre jeu de données, et proposons un cadre simple mais efficace appelé Action-Part Semantic Relevance-aware (APSR) pour cette tâche, qui produit des résultats prometteurs pour la reconnaissance des nouvelles classes d'actions. Nous croyons que l'introduction de ce jeu de données à grande échelle permettra à la communauté scientifique d'appliquer, adapter et développer diverses techniques d'apprentissage nécessitant beaucoup de données pour la compréhension des activités humaines basée sur la profondeur et les données RGB+D. [Le jeu de données est disponible à : http://rose1.ntu.edu.sg/Datasets/actionRecognition.asp]