HyperAIHyperAI
vor 3 Monaten

Vorteile der 3D-Pose- und Tracking-Technologie für die Aktionserkennung am Menschen

Jathushan Rajasegaran, Georgios Pavlakos, Angjoo Kanazawa, Christoph Feichtenhofer, Jitendra Malik
Vorteile der 3D-Pose- und Tracking-Technologie für die Aktionserkennung am Menschen
Abstract

In dieser Arbeit untersuchen wir die Vorteile der Verwendung von Verfolgung und 3D-Posen für die Aktionserkennung. Dazu betrachten wir Aktionen aus der Lagrangeschen Perspektive entlang einer Trajektorie menschlicher Bewegung, anstatt an einem festen Punkt im Raum. Diese Herangehensweise ermöglicht es uns, Aktionen anhand der Tracklets von Personen vorherzusagen. In diesem Sinne zeigen wir zunächst die Vorteile der Nutzung von 3D-Posen zur Ableitung von Aktionen und untersuchen Interaktionen zwischen Personen. Anschließend stellen wir ein Lagrangesches Modell zur Aktionserkennung vor, das 3D-Posen und kontextualisierte Erscheinungsbilder über Tracklets fusioniert. Unser Ansatz erreicht auf dem AVA v2.2-Datensatz sowohl bei reinen Pose-Settings als auch bei standardisierten Benchmark-Settings state-of-the-art-Leistungen. Bei der Aktionsinferenz unter Verwendung ausschließlich von Pose-Cues erzielt unser Pose-Modell eine Verbesserung um +10,0 mAP gegenüber dem jeweiligen Stand der Technik, während unser gefundenes Modell eine Verbesserung um +2,8 mAP gegenüber dem besten bisherigen Modell erreicht. Der Quellcode und die Ergebnisse sind verfügbar unter: https://brjathu.github.io/LART

Vorteile der 3D-Pose- und Tracking-Technologie für die Aktionserkennung am Menschen | Forschungsarbeiten | HyperAI