Kontaktbewusste Vorhersage menschlicher Bewegungen

In diesem Paper behandeln wir die Aufgabe der szenebewussten 3D-Menschenbewegungsprognose, bei der zukünftige menschliche Körperhaltungen basierend auf einer 3D-Szene und einer vergangenen Bewegungssequenz vorhergesagt werden sollen. Eine zentrale Herausforderung dieser Aufgabe besteht darin, die Konsistenz zwischen Mensch und Szene sicherzustellen und mensch-szene-Interaktionen angemessen zu berücksichtigen. Frühere Ansätze modellieren solche Interaktionen lediglich implizit und erzeugen daher häufig Artefakte wie sogenannte „Ghost-Bewegungen“, da zwischen lokalen Gelenkpositionen und globaler Bewegung keine expliziten Beschränkungen bestehen. Im Gegensatz dazu schlagen wir vor, die mensch-szene-Kontakte explizit zu modellieren. Dazu führen wir kontaktbasierte Distanzabbildungen ein, die die Kontaktbeziehungen zwischen jedem Gelenk und jedem Punkt der 3D-Szene zu jedem Zeitpunkt erfassen. Anschließend entwickeln wir ein zweistufiges Verfahren, das zunächst die zukünftigen Kontaktabbildungen aus den vergangenen und der Szene-Punktwolke vorhersagt und danach die zukünftigen menschlichen Körperhaltungen bedingt auf die vorhergesagten Kontaktabbildungen berechnet. Während des Trainings fördern wir explizit die Konsistenz zwischen globaler Bewegung und lokalen Gelenkpositionen mittels eines Vorwissens, das auf den Kontaktabbildungen und den zukünftigen Haltungen basiert. Unser Ansatz übertrifft die aktuell besten Methoden zur Menschenbewegungsprognose und Menschen-Synthese sowohl auf synthetischen als auch auf realen Datensätzen. Der Quellcode ist unter https://github.com/wei-mao-2019/ContAwareMotionPred verfügbar.