Une Revue Comparée des Algorithmes Récents de Reconnaissance d'Actions Basés sur Kinect

La reconnaissance d'actions humaines basée sur la vidéo est actuellement l'un des domaines de recherche les plus actifs en vision par ordinateur. De nombreuses études montrent que les performances de la reconnaissance d'actions dépendent fortement du type de caractéristiques extraites et de la manière dont les actions sont représentées. Depuis la sortie de la caméra Kinect, un grand nombre de techniques de reconnaissance d'actions humaines basées sur Kinect ont été proposées dans la littérature. Cependant, il n'existe toujours pas une comparaison approfondie de ces techniques basées sur Kinect en fonction des types de caractéristiques, tels que les caractéristiques conçues manuellement (handcrafted) versus les caractéristiques apprises profondément (deep learning) et les caractéristiques basées sur la profondeur (depth-based) versus les caractéristiques basées sur le squelette (skeleton-based). Dans cet article, nous analysons et comparons dix algorithmes récents basés sur Kinect pour la reconnaissance d'actions entre sujets (cross-subject) et la reconnaissance d'actions entre vues (cross-view), en utilisant six jeux de données de référence. De plus, nous avons mis en œuvre et amélioré certaines de ces techniques, incluant leurs variantes dans la comparaison. Nos expériences montrent que la majorité des méthodes se comportent mieux pour la reconnaissance d'actions entre sujets que pour la reconnaissance d'actions entre vues, que les caractéristiques basées sur le squelette sont plus robustes pour la reconnaissance d'actions entre vues que celles basées sur la profondeur, et que les caractéristiques apprises profondément conviennent aux grands jeux de données.