Szenenbewusste Vorhersage menschlicher Bewegung mittels gegenseitiger Distanzvorhersage

In diesem Artikel behandeln wir das Problem der szenenbewussten Vorhersage von 3D-Menschenbewegungen. Eine zentrale Herausforderung dieser Aufgabe besteht darin, zukünftige Menschenbewegungen vorherzusagen, die mit der Szene konsistent sind, indem man die Interaktionen zwischen Mensch und Szene modelliert. Obwohl jüngste Arbeiten gezeigt haben, dass explizite Einschränkungen der Mensch-Szene-Interaktionen das Auftreten von „Ghost-Bewegungen“ verhindern können, beschränken sie sich lediglich auf Teile der menschlichen Bewegung, beispielsweise die globale Bewegung des Menschen oder einige Gelenke, die die Szene berühren, während der Rest der Bewegung unbeschränkt bleibt. Um diese Einschränkung zu überwinden, schlagen wir vor, die Mensch-Szene-Interaktion durch die wechselseitige Distanz zwischen dem menschlichen Körper und der Szene zu modellieren. Diese wechselseitigen Distanzen beschränken sowohl die lokale als auch die globale menschliche Bewegung und führen somit zu einer ganzen Körperbewegung umfassenden Vorhersage. Insbesondere setzen sich die wechselseitigen Distanzbeschränkungen aus zwei Komponenten zusammen: der vorzeichenbehafteten Distanz jedes Eckpunkts der menschlichen Mesh-Struktur zur Szeneoberfläche sowie der Distanz ausgewählter Basispunkte der Szene zur menschlichen Mesh-Struktur. Wir führen ferner eine globale Szene-Repräsentation ein, die aus einem vorzeichenbehafteten Distanzfunktion (SDF)-Volumen gelernt wird, um die Kohärenz zwischen der globalen Szene-Repräsentation und den expliziten Beschränkungen durch die wechselseitigen Distanzen sicherzustellen. Wir entwickeln eine Pipeline mit zwei aufeinanderfolgenden Schritten: Zunächst wird die zukünftige wechselseitige Distanz vorhergesagt, danach die zukünftige Menschenbewegung. Während des Trainings fördern wir explizit die Konsistenz zwischen den vorhergesagten Pose und den wechselseitigen Distanzen. Umfassende Evaluationen auf bestehenden synthetischen und realen Datensätzen zeigen, dass unser Ansatz konsistent die state-of-the-art-Methoden übertrifft.