PGformer: Proxy-verbundener Game-Transformer für die Mehrpersonen-Vorhersage extrem bewegter Interaktionen

Die Vorhersage von Bewegungen mehrerer Personen ist eine anspruchsvolle Aufgabe, insbesondere für realweltliche Szenarien mit stark interagierenden Individuen. Die meisten bisherigen Arbeiten haben sich auf den Fall schwacher Interaktionen (z.B. gemeinsames Gehen) konzentriert, bei denen die isolierte Vorhersage jeder menschlichen Pose immer noch gute Ergebnisse erzielen kann. In diesem Artikel wird der Fokus auf die kollaborative Bewegungsvorhersage für mehrere Personen mit extremen Bewegungen gelegt und es wird versucht, die Beziehungen zwischen den Pose-Trajektorien stark interagierender Personen zu erforschen. Insbesondere wird ein neuartiges Modul zur gegenseitigen Abfrage- und Aufmerksamkeitserkennung (Cross-Query Attention, XQA) vorgeschlagen, um die gegenseitigen Abhängigkeiten zwischen zwei Pose-Sequenzen in dieser Situation bilateral zu lernen. Zudem wird eine Proxy-Einheit eingeführt, um die beteiligten Personen zu verbinden, die zusammen mit dem vorgeschlagenen XQA-Modul arbeitet und subtil die bidirektionale Flussrichtung räumlicher Informationen steuert. Diese Konzepte werden dann in eine Transformer-basierte Architektur integriert, und das resultierende Modell wird als Proxy-vermitteltes Game Transformer (PGformer) für die Vorhersage von interaktiven Bewegungen mehrerer Personen bezeichnet. Die Effektivität des Modells wurde anhand des herausfordernden ExPI-Datensatzes evaluiert, der hochgradig interaktive Aktionen umfasst. Unser PGformer übertrifft die Stand-of-the-Art-Methoden sowohl bei kurzfristigen als auch langfristigen Vorhersagen deutlich. Darüber hinaus kann unser Ansatz auch mit den schwach interagierenden CMU-Mocap und MuPoTS-3D Datensätzen kompatibel sein und auf Fälle von mehr als 2 Individuen erweitert werden, wobei er vielversprechende Ergebnisse liefert.