HyperAIHyperAI
vor 12 Tagen

Lernen räumlich-zeitlicher Strukturen aus RGB-D-Videos zur Erkennung und Vorhersage menschlicher Aktivitäten

{Hema S. Koppula, Ashutosh Saxena}
Lernen räumlich-zeitlicher Strukturen aus RGB-D-Videos zur Erkennung und Vorhersage menschlicher Aktivitäten
Abstract

Wir betrachten das Problem der Erkennung vergangener Aktivitäten sowie der Vorhersage zukünftiger Aktivitäten und deren Ausführung. Wir beginnen damit, die reichen räumlich-zeitlichen Beziehungen zwischen menschlichen Körperhaltungen und Objekten (sogenannte Affordances) mittels eines bedingten zufälligen Feldes (CRF) zu modellieren. Aufgrund der Unsicherheit bei der zeitlichen Segmentierung der Teilaktivitäten, die sowohl in der Vergangenheit als auch in der Zukunft auftreten, sind jedoch mehrere Graphstrukturen möglich. In diesem Artikel argumentieren wir über diese alternativen Möglichkeiten, indem wir über mehrere mögliche Graphstrukturen reasoning durchführen. Diese erhalten wir, indem wir den Graphen lediglich durch additive Merkmale approximieren, was eine effiziente dynamische Programmierung ermöglicht. Ausgehend von dieser vorgeschlagenen Graphstruktur entwickeln wir anschließend Bewegungen, um mehrere weitere wahrscheinliche Graphstrukturen zu generieren. Wir zeigen, dass unser Ansatz die bisher beste Leistung erheblich verbessert, sowohl bei der Erkennung vergangener Aktivitäten als auch bei der Vorhersage zukünftiger Aktivitäten, auf einem Datensatz aus 120 Aktivitätsvideos, die von vier Probanden aufgenommen wurden.

Lernen räumlich-zeitlicher Strukturen aus RGB-D-Videos zur Erkennung und Vorhersage menschlicher Aktivitäten | Neueste Forschungsarbeiten | HyperAI