MotionMixer: MLP-basierte Vorhersage von 3D-Menschenkörperpose

In dieser Arbeit präsentieren wir MotionMixer, ein effizientes Modell zur Vorhersage von 3D-Körperhaltungen menschlicher Bewegungen, das ausschließlich auf mehrschichtigen Perzeptronen (MLPs) basiert. MotionMixer lernt die räumlich-zeitlichen Abhängigkeiten der 3D-Körperhaltung durch sequenzielle Mischung beider Modalitäten. Gegeben eine gestapelte Folge von 3D-Körperhaltungen extrahiert ein räumliches MLP fein abgestimmte räumliche Abhängigkeiten zwischen den Gelenken. Die Wechselwirkungen zwischen den Gelenken über die Zeit werden anschließend durch ein zeitliches MLP modelliert. Die gemischten räumlich-zeitlichen Merkmale werden schließlich aggregiert und decodiert, um die zukünftige Bewegung zu ermitteln. Um die Einflussstärke jedes Zeitpunkts in der Haltungssequenz zu kalibrieren, nutzen wir Squeeze-and-Excitation (SE)-Blöcke. Wir evaluieren unseren Ansatz auf den Datensätzen Human3.6M, AMASS und 3DPW unter Verwendung der Standard-Evaluierungsprotokolle. In allen Evaluierungen zeigen wir einen state-of-the-art-Leistungsniveau, während das Modell eine geringere Anzahl an Parametern aufweist. Der Quellcode ist unter folgender URL verfügbar: https://github.com/MotionMLP/MotionMixer