Mehrskalige residuelle Lernverfahren für graphische Faltungsserienabschnitte zur menschlichen Bewegungsprognose

Es wird ein neuer Ansatz zur Vorhersage menschlicher Bewegungen vorgestellt, der zeitliche und räumliche Abhängigkeiten durch Lernen erfassen soll. In jüngster Zeit wurden mehrskalige Graphen entwickelt, um den menschlichen Körper auf höheren Abstraktionsstufen zu modellieren, was zu stabileren Bewegungsvorhersagen führt. Aktuelle Methoden bestimmen jedoch die Skalenebenen vorab und kombinieren räumlich benachbarte Gelenke, um gröbere Skalen auf Basis menschlicher Vorwissen zu generieren, obwohl Bewegungsmuster in unterschiedlichen Bewegungssequenzen variieren und nicht vollständig einem festen Graphen räumlich verbundener Gelenke entsprechen. Ein weiteres Problem graphenbasiertes Faltungsverfahren ist die Moden-Kollaps-Phänomen, bei dem die vorhergesagten Pose sich um eine Mittelpose konvergieren und keine erkennbaren Bewegungen mehr zeigen, insbesondere bei langfristigen Vorhersagen. Um diese Herausforderungen anzugehen, schlagen wir ResChunk vor – ein end-to-end-Netzwerk, das dynamisch korrelierte Körperkomponenten basierend auf den paarweisen Beziehungen zwischen allen Gelenken einzelner Sequenzen erkennt. ResChunk wird autoregressiv trainiert, um die Residuen zwischen Zielsequenzabschnitten zu lernen, um die zeitliche Zusammenhängigkeit zwischen aufeinanderfolgenden Abschnitten zu gewährleisten. Es handelt sich somit um ein sequenz-zu-sequenz-Vorhersagenetzwerk, das dynamische räumlich-zeitliche Merkmale von Sequenzen auf mehreren Ebenen berücksichtigt. Unsere Experimente auf zwei anspruchsvollen Benchmark-Datensätzen, CMU Mocap und Human3.6M, zeigen, dass der vorgeschlagene Ansatz in der Lage ist, die Sequenzinformation effektiv für die Bewegungsvorhersage zu modellieren und andere Techniken zu übertreffen, wodurch ein neuer Stand der Technik erreicht wird. Der Quellcode ist unter https://github.com/MohsenZand/ResChunk verfügbar.