Command Palette
Search for a command to run...
Analyse interprétable des actions humaines en 3D à l’aide de réseaux de convolution temporelle
Analyse interprétable des actions humaines en 3D à l’aide de réseaux de convolution temporelle
Kim Tae Soo Reiter Austin
Résumé
La capacité discriminante des modèles d’apprentissage profond modernes pour la reconnaissance d’actions humaines 3D ne cesse de croître. En parallèle de la récente renaissance des représentations d’actions humaines 3D basées sur des squelettes 3D, la qualité et la rapidité des progrès récents ont été significatives. Toutefois, le fonctionnement interne des méthodes les plus avancées fondées sur l’apprentissage pour la reconnaissance d’actions humaines 3D reste en grande partie un « boîte noire ». Dans ce travail, nous proposons d’utiliser une nouvelle catégorie de modèles, les Réseaux de neurones à convolution temporelle (Temporal Convolutional Neural Networks, TCN), pour la reconnaissance d’actions humaines 3D. Contrairement aux modèles de réseaux de neurones récurrents (RNN) populaires basés sur les LSTM, les TCN permettent, à partir d’entrées interprétables telles que des squelettes 3D, d’apprendre explicitement des représentations spatio-temporelles aisément interprétables pour la reconnaissance d’actions humaines 3D. Nous présentons notre stratégie de réaménagement des TCN en tenant compte de l’interprétabilité, ainsi que la manière dont ces caractéristiques du modèle sont exploitées pour concevoir une méthode puissante de reconnaissance d’activités 3D. À travers ce travail, nous souhaitons franchir une étape vers un modèle spatio-temporel plus facile à comprendre, à expliquer et à interpréter. Le modèle résultant, nommé Res-TCN, atteint des performances de pointe sur le plus grand jeu de données de reconnaissance d’actions humaines 3D, à savoir NTU-RGBD.