Staged Contact-Aware Globale Vorhersage menschlicher Bewegung

Szenenbewusste globale Vorhersage menschlicher Bewegungen ist für zahlreiche Anwendungen von entscheidender Bedeutung, darunter virtuelle Realität, Robotik und Sportwissenschaft. Die Aufgabe kombiniert die Vorhersage von menschlichen Trajektorien und Körperhaltungen im Kontext einer vorgegebenen Szene und stellt dabei eine erhebliche Herausforderung dar.Bisher hat lediglich Mao et al. (NeurIPS '22) die szenenbewusste globale Bewegungsvorhersage adressiert, indem sie die Vorhersage zukünftiger Szenenkontaktstellen und die Schätzung globaler Bewegungen kaskadenartig verknüpften. Letzteres erfolgt dabei als end-to-end-Vorhersage zukünftiger Trajektorien und Haltungen. Diese end-to-end-Strategie steht jedoch im Widerspruch zur naturgemäß grob-zu-fein-Struktur der Aufgabe und führt gemäß unserer empirischen Evaluation zu einer geringeren Leistung.Wir stellen STAG (Spatio-Temporal Augmented Generation), einen neuartigen dreistufigen Ansatz zur Vorhersage globaler menschlicher Bewegungen in einer 3D-Umgebung, vor. Zunächst betrachten wir die Szene und die jeweiligen menschlichen Interaktionen als Kontaktstellen. Im zweiten Schritt modellieren wir die Vorhersage der menschlichen Trajektorie innerhalb der Szene und schätzen die grobe Bewegung des menschlichen Körpers als Ganzes vorher. Im dritten und letzten Schritt wird eine plausibel fein aufgelöste Gelenkbewegung an die vorhergesagte Trajektorie angepasst, wobei die geschätzten Kontakte berücksichtigt werden.Im Vergleich zum Stand der Technik (SoA) erreicht STAG auf dem szenenbewussten GTA-IM-Datensatz eine insgesamt um 1,8 % verbesserte Vorhersagegenauigkeit für die Körperhaltung und eine Verbesserung um 16,2 % bei der Trajektorienvorhersage. Eine umfassende Ablationsstudie bestätigt die Vorteile der stufenweisen Modellierung gegenüber end-to-end-Ansätzen. Darüber hinaus zeigen wir die Bedeutung eines neu eingeführten zeitlichen Indikators namens „time-to-go“, der angibt, wie lange noch bis zum Erreichen einer Szenenkontaktstelle oder eines Endpunkts verbleibt. Besonders hervorzuheben ist, dass STAG in der Lage ist, auf Datensätzen ohne Szeneninformation generalisierend zu funktionieren und dabei eine neue state-of-the-art-Leistung auf CMU-Mocap erzielt – ohne dabei soziale Hinweise zu nutzen. Unser Code ist unter folgender Adresse verfügbar: https://github.com/L-Scofano/STAG