NTU RGB+D : Un grand ensemble de données pour l'analyse d'activités humaines en 3D

Les approches récentes dans l'analyse de l'activité humaine basée sur la profondeur ont obtenu des performances exceptionnelles et ont démontré l'efficacité de la représentation 3D pour la classification des classes d'action. Les jeux de données actuellement disponibles pour la reconnaissance d'actions basée sur la profondeur et RGB+D présentent plusieurs limitations, notamment un manque d'échantillons d'entraînement, des étiquettes de classe distinctes, des vues de caméra et une variété de sujets. Dans cet article, nous introduisons un jeu de données à grande échelle pour la reconnaissance d'actions humaines RGB+D comprenant plus de 56 000 échantillons vidéo et 4 millions d'images, collectés auprès de 40 sujets distincts. Notre jeu de données contient 60 classes d'action différentes, incluant des actions quotidiennes, mutuelles et liées à la santé. De plus, nous proposons une nouvelle structure de réseau neuronal récurrent pour modéliser la corrélation temporelle à long terme des caractéristiques pour chaque partie du corps, et les utilisons pour améliorer la classification des actions. Les résultats expérimentaux montrent les avantages de l'utilisation des méthodes d'apprentissage profond par rapport aux caractéristiques élaborées manuellement (hand-crafted features) les plus avancées sur les critères d'évaluation inter-sujets et inter-vues suggérés pour notre jeu de données. L'introduction de ce jeu de données à grande échelle permettra à la communauté d'appliquer, développer et adapter diverses techniques d'apprentissage nécessitant beaucoup de données pour la tâche d'analyse de l'activité humaine basée sur la profondeur et RGB+D.