HyperAIHyperAI
vor 7 Tagen

WHAM: Rekonstruktion weltbegründeter Menschen mit präziser 3D-Bewegung

Soyong Shin, Juyong Kim, Eni Halilaj, Michael J. Black
WHAM: Rekonstruktion weltbegründeter Menschen mit präziser 3D-Bewegung
Abstract

Die Schätzung von 3D-Menschenbewegungen aus Videosequenzen hat sich rasch entwickelt, doch bestehen derzeit noch mehrere wesentliche Einschränkungen. Erstens schätzen die meisten Methoden die menschliche Bewegung in Kamerakoordinaten. Zweitens gehen viele Ansätze zur Schätzung in globalen Koordinaten von einer ebenen Bodenfläche aus und führen zu unphysikalischen Fußgleitbewegungen. Drittens basieren die präzisesten Methoden auf rechenintensiven Optimierungsprozessen, was ihre Anwendung auf Offline-Anwendungen beschränkt. Schließlich sind bestehende videobasierte Methoden überraschenderweise weniger genau als Einzelbildmethoden. Wir adressieren diese Einschränkungen mit WHAM (World-grounded Humans with Accurate Motion), das 3D-Menschenbewegungen präzise und effizient in einem globalen Koordinatensystem aus Video rekonstruiert. WHAM lernt, 2D-Knopfpunktfolgen in 3D zu transformieren, indem es Bewegungsdaten aus Motion-Capture-Systemen nutzt und diese mit Video-Features fusioniert, wodurch Bewegungskontext und visuelle Informationen integriert werden. WHAM nutzt die aus einer SLAM-Methode geschätzte Kamerawinkelgeschwindigkeit gemeinsam mit der menschlichen Bewegung, um die globale Trajektorie des Körpers zu schätzen. Dies wird ergänzt durch eine kontaktbewusste Trajektorienverfeinerungsmethode, die WHAM ermöglicht, Bewegungen unter vielfältigen Bedingungen – etwa beim Treppensteigen – genau zu erfassen. WHAM übertrifft alle bestehenden Methoden zur 3D-Menschenbewegungsschätzung an mehreren in-the-wild-Benchmarks. Der Quellcode wird für Forschungszwecke unter http://wham.is.tue.mpg.de/ zur Verfügung gestellt.