vor 2 Monaten

Das Lernen von menschlichen Aktivitäten und Objekt-affordances aus RGB-D-Videos

Hema Swetha Koppula; Rudhir Gupta; Ashutosh Saxena

Abstract

Das Verständnis menschlicher Aktivitäten und Objekt-affordances ist eine wichtige Fähigkeit, insbesondere für persönliche Roboter, die in menschlichen Umgebungen operieren. In dieser Arbeit betrachten wir das Problem der Extraktion einer beschreibenden Klassifizierung der von einem Menschen ausgeführten Subaktivitätenfolge und ihrer Interaktionen mit Objekten in Form von zugehörigen Affordances. Anhand eines RGB-D-Videos modellieren wir menschliche Aktivitäten und Objekt-affordances gemeinsam als Markov-Zufallsfeld, wobei die Knoten für Objekte und Subaktivitäten stehen und die Kanten die Beziehungen zwischen den Objekt-affordances, ihren Verbindungen zu Subaktivitäten sowie deren zeitlicher Entwicklung darstellen. Wir formulieren das Lernproblem unter Verwendung eines strukturellen Support Vector Machine (SSVM)-Ansatzes, bei dem Klassifizierungen über verschiedene alternative zeitliche Segmentierungen als latente Variablen berücksichtigt werden. Unser Verfahren wurde an einem anspruchsvollen Datensatz getestet, der 120 Aktivitätsvideos von 4 Probanden umfasst; dabei erzielten wir eine Genauigkeit von 79,4 % für Affordances, 63,4 % für Subaktivitäten und 75,0 % für hochrangige Aktivitätsklassifizierungen. Schließlich demonstrieren wir die Anwendung solcher beschreibender Klassifizierungen bei der Durchführung assistierender Aufgaben durch einen PR2-Roboter.