Mehrpersonen-Extrembewegungsvorhersage

Die Vorhersage menschlicher Bewegungen zielt darauf ab, zukünftige Körperhaltungen anhand einer Folge vergangener 3D-Skelette zu prognostizieren. Obwohl dieses Problem in letzter Zeit zunehmend Beachtung gefunden hat, wurde es bisher hauptsächlich für einzelne Menschen isoliert angegangen. In dieser Arbeit untersuchen wir das Problem bei Menschen, die kollaborative Aufgaben ausführen, und streben danach, die zukünftige Bewegung von zwei interagierenden Personen anhand zweier Folgen ihrer vergangenen Skelette vorherzusagen. Wir schlagen einen neuen Mechanismus zur Kreuzinteraktionsaufmerksamkeit (cross interaction attention) vor, der die historischen Informationen beider Personen nutzt und lernt, die gegenseitigen Abhängigkeiten zwischen den beiden Posenfolgen vorherzusagen. Da es bisher keine Datensätze gibt, um solche interaktiven Situationen zu trainieren, haben wir ExPI (Extreme Pose Interaction) erstellt – eine neue laborbasierte Datensammlung von professionellen Tänzern, die Lindy-Hop-Tanzaktionen ausführen. Diese enthält 115 Sequenzen mit 30.000 Frames, die mit 3D-Körperhaltungen und -formen annotiert sind. Wir evaluieren unser Netzwerk zur Kreuzinteraktion gründlich auf ExPI und zeigen, dass sowohl bei kurz- als auch langfristigen Prognosen unsere Methode konsequent den aktuellen Stand der Technik in der Vorhersage individueller Bewegungen übertrifft.