Lernen räumlich-zeitlicher Strukturen aus RGB-D-Videos zur Erkennung und Vorhersage menschlicher Aktivitäten
{Hema S. Koppula Ashutosh Saxena}

Abstract
Wir betrachten das Problem der Erkennung vergangener Aktivitäten sowie der Vorhersage zukünftiger Aktivitäten und deren Ausführung. Wir beginnen damit, die reichen räumlich-zeitlichen Beziehungen zwischen menschlichen Körperhaltungen und Objekten (sogenannte Affordances) mittels eines bedingten zufälligen Feldes (CRF) zu modellieren. Aufgrund der Unsicherheit bei der zeitlichen Segmentierung der Teilaktivitäten, die sowohl in der Vergangenheit als auch in der Zukunft auftreten, sind jedoch mehrere Graphstrukturen möglich. In diesem Artikel argumentieren wir über diese alternativen Möglichkeiten, indem wir über mehrere mögliche Graphstrukturen reasoning durchführen. Diese erhalten wir, indem wir den Graphen lediglich durch additive Merkmale approximieren, was eine effiziente dynamische Programmierung ermöglicht. Ausgehend von dieser vorgeschlagenen Graphstruktur entwickeln wir anschließend Bewegungen, um mehrere weitere wahrscheinliche Graphstrukturen zu generieren. Wir zeigen, dass unser Ansatz die bisher beste Leistung erheblich verbessert, sowohl bei der Erkennung vergangener Aktivitäten als auch bei der Vorhersage zukünftiger Aktivitäten, auf einem Datensatz aus 120 Aktivitätsvideos, die von vier Probanden aufgenommen wurden.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| skeleton-based-action-recognition-on-cad-120 | All Features (w ground truth) | Accuracy: 89.3% |
| skeleton-based-action-recognition-on-cad-120 | Our DP seg. + moves + heuristic seg. | Accuracy: 70.3% |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.