il y a 2 mois

Analyse interprétable de l'action humaine en 3D avec des réseaux de convolution temporelle

Kim, Tae Soo ; Reiter, Austin

Résumé

La puissance discriminante des modèles d'apprentissage profond modernes pour la reconnaissance d'actions humaines en 3D gagne en efficacité de manière croissante. Associée au récent regain d'intérêt pour la représentation des actions humaines en 3D à l'aide de squelettes 3D, la qualité et le rythme des progrès récents ont été significatifs. Cependant, les mécanismes internes des méthodes d'apprentissage les plus avancées dans la reconnaissance d'actions humaines en 3D restent largement opaques. Dans cette étude, nous proposons d'utiliser une nouvelle classe de modèles connue sous le nom de Réseaux Neuronaux Convolutifs Temporels (TCN) pour la reconnaissance d'actions humaines en 3D. Comparés aux modèles populaires de Réseaux Neuraux Récursifs basés sur les LSTM, étant donné des entrées interprétables telles que des squelettes 3D, les TCN nous offrent un moyen d'apprendre explicitement des représentations spatio-temporelles facilement interprétables pour la reconnaissance d'actions humaines en 3D. Nous présentons notre stratégie pour redéfinir le TCN en tenant compte de l'interprétabilité et expliquons comment ces caractéristiques du modèle sont exploitées pour construire une méthode puissante de reconnaissance d'activités en 3D. Par ce travail, nous souhaitons faire un pas vers un modèle spatio-temporel plus facile à comprendre, à expliquer et à interpréter. Le modèle résultant, Res-TCN, obtient des résultats de pointe sur le plus grand ensemble de données de reconnaissance d'actions humaines en 3D, NTU-RGBD.