Un grand ensemble de données RGB-D d’actions avec vues variables pour la reconnaissance d’actions humaines à vue arbitraire

Les recherches actuelles en reconnaissance d'actions se concentrent principalement sur la reconnaissance mono-vue et multi-vue, qui peinent à satisfaire les exigences des applications d'interaction homme-robot (IHR) pour reconnaître les actions sous n'importe quel angle de vue. Le manque de jeux de données pose également des obstacles. Afin de fournir des données pour la reconnaissance d'actions sous n'importe quel angle de vue, nous avons collecté un nouveau jeu de données RGB-D à grande échelle pour l'analyse d'actions sous n'importe quel angle de vue, comprenant des vidéos RGB, des séquences de profondeur et des séquences squelettiques. Ce jeu de données inclut des échantillons d'actions capturés sous 8 points de vue fixes ainsi que des séquences à vue variable couvrant l'intégralité des angles de 360 degrés. Au total, 118 personnes ont été invitées à interpréter 40 catégories d'actions, et 25 600 échantillons vidéo ont été collectés. Notre jeu de données implique un plus grand nombre de participants, de points de vue et un nombre important d'échantillons. Plus important encore, il s'agit du premier jeu de données contenant des séquences à vue variable couvrant l'intégralité des 360 degrés. Ce jeu de données fournit suffisamment de données pour l'analyse d'actions multi-vue, transverse et sous n'importe quel angle de vue. De plus, nous proposons un réseau neuronal convolutif guidé par la vue (VS-CNN) pour résoudre le problème de reconnaissance d'actions sous n'importe quel angle de vue. Les résultats expérimentaux montrent que le VS-CNN atteint une performance supérieure.