il y a 2 mois

Apprentissage des activités humaines et des affordances d'objets à partir de vidéos RGB-D

Hema Swetha Koppula; Rudhir Gupta; Ashutosh Saxena

Résumé

La compréhension des activités humaines et des affordances des objets sont deux compétences essentielles, en particulier pour les robots personnels qui opèrent dans des environnements humains. Dans ce travail, nous abordons le problème de l'extraction d'une étiquetage descriptif de la séquence de sous-activités réalisées par un être humain, et plus important encore, de leurs interactions avec les objets sous forme d'affordances associées. Étant donné une vidéo RGB-D, nous modélisons conjointement les activités humaines et les affordances des objets comme un champ aléatoire de Markov où les nœuds représentent les objets et les sous-activités, et les arêtes représentent les relations entre les affordances des objets, leurs relations avec les sous-activités, et leur évolution au fil du temps. Nous formulons le problème d'apprentissage en utilisant une approche de machine à vecteurs de support structurelle (SSVM), où les étiquetages sur différentes segmentations temporelles alternatives sont considérés comme des variables latentes. Nous avons testé notre méthode sur un ensemble de données complexe comprenant 120 vidéos d'activités collectées auprès de 4 sujets, obtenant une précision de 79,4 % pour l'affordance, 63,4 % pour la sous-activité et 75,0 % pour l'étiquetage d'activité de haut niveau. Nous démontrons ensuite l'utilisation d'un tel étiquetage descriptif dans la réalisation de tâches assistives par un robot PR2.