il y a 2 mois

Fusion de multiples caractéristiques pour la reconnaissance d'actions basée sur la profondeur

{Wenbin Chen, Guodong Guo, Yu Zhu}

Résumé

La reconnaissance d’actions humaines est un domaine de recherche très actif en vision par ordinateur et en reconnaissance de motifs. Récemment, elle a démontré un fort potentiel pour la reconnaissance d’actions humaines à l’aide de données de profondeur tridimensionnelles (3D) capturées par les capteurs RGB-D émergents. Plusieurs caractéristiques et/ou algorithmes ont été proposés pour la reconnaissance d’actions basée sur la profondeur. Une question s’impose : pouvons-nous identifier certaines caractéristiques complémentaires et les combiner afin d’améliorer significativement la précision de la reconnaissance d’actions à partir de données de profondeur ? Pour répondre à cette question et approfondir la compréhension du problème, nous étudions la fusion de différentes caractéristiques pour la reconnaissance d’actions basée sur la profondeur. Bien que la fusion de données ait connu un grand succès dans d’autres domaines, elle n’a pas encore été suffisamment explorée dans le contexte de la reconnaissance d’actions 3D. Plusieurs enjeux doivent être abordés, notamment la question de savoir si la fusion est réellement bénéfique pour la reconnaissance d’actions à partir de profondeur, et comment réaliser cette fusion de manière appropriée. Dans cet article, nous étudions de manière exhaustive différentes stratégies de fusion, en utilisant des caractéristiques diverses pour caractériser les actions dans les vidéos de profondeur. Deux niveaux de fusion sont envisagés : le niveau de caractéristiques (feature level) et le niveau de décision (decision level). Des méthodes variées sont explorées à chacun de ces niveaux. Quatre caractéristiques différentes sont considérées afin de capturer les motifs d’actions en profondeur sous différents angles. Des expérimentations sont menées sur quatre bases de données de reconnaissance d’actions en profondeur particulièrement exigeantes, afin d’évaluer les performances et d’identifier les meilleures stratégies de fusion. Nos résultats expérimentaux montrent que les quatre caractéristiques étudiées dans cet article se complètent mutuellement, et que des méthodes de fusion adaptées permettent d’améliorer significativement la précision de reconnaissance par rapport à chaque caractéristique prise individuellement. Plus important encore, notre approche fondée sur la fusion dépasse les méthodes de pointe actuelles sur ces bases de données difficiles.