Classification autonome des activités humaines à partir de données d'une caméra égocentrique et d'un accéléromètre

Une quantité importante de travaux de recherche a été consacrée à la classification des activités humaines en s'appuyant soit sur les données d'unités de mesure inertielle (IMU), soit sur les données de caméras statiques fournissant une vue à la troisième personne. L'utilisation exclusive des données IMU limite la variété et la complexité des activités qui peuvent être détectées. Par exemple, l'activité assise peut être détectée par les données IMU, mais il n'est pas possible de déterminer si le sujet est assis sur une chaise ou un canapé, ni où se trouve le sujet. Pour effectuer une classification d'activités à grain fin à partir de vidéos égocentriques et pour distinguer entre des activités qui ne peuvent pas être différenciées uniquement par les données IMU, nous présentons une méthode autonome et robuste utilisant des données provenant à la fois de caméras égocentriques et d'IMUs. Contrairement aux approches basées sur les réseaux neuronaux convolutifs, nous proposons d'utiliser des réseaux de capsules pour extraire des caractéristiques des données vidéo égocentriques. De plus, le cadre Convolutional Long Short Term Memory (ConvLSTM) est appliqué tant aux vidéos égocentriques qu'aux données IMU afin de capturer l'aspect temporel des actions. Nous proposons également une approche basée sur un algorithme génétique pour définir systématiquement et autonomement divers paramètres du réseau, plutôt que d'utiliser des réglages manuels. Des expériences ont été réalisées pour effectuer une classification d'activités avec 9 et 26 étiquettes, et la méthode proposée, utilisant des paramètres de réseau définis automatiquement, a fourni des résultats très prometteurs, atteignant respectivement des précisions globales de 86,6 % et 77,2 %. L'approche proposée combinant les deux modalités offre également une précision accrue par rapport à l'utilisation seule des données égocentriques et seule des données IMU.