Zurück zu MLP: Eine einfache Grundlinie für die Vorhersage menschlicher Bewegungen

Dieses Papier behandelt das Problem der Vorhersage menschlicher Bewegungen, das darin besteht, zukünftige Körperhaltungen aus historisch beobachteten Sequenzen vorherzusagen. Obwohl sich die neuesten Ansätze mit guter Genauigkeit bewährt haben, basieren sie auf tiefen Lernarchitekturen von willkürlicher Komplexität, wie Rekurrente Neuronale Netze (RNN), Transformer oder Graph Convolutional Networks (GCN). Diese Ansätze erfordern in der Regel mehrere Trainingsphasen und über 2 Millionen Parameter. In dieser Arbeit zeigen wir, dass nach der Kombination mit einer Reihe von Standardverfahren, wie der Anwendung der Diskreten Kosinus-Transformation (DCT), der Vorhersage des residuellen Versatzes von Gelenken und der Optimierung der Geschwindigkeit als Nebenverlustfunktion, ein leichtgewichtiges Netzwerk auf Basis von Multi-Layer Perceptrons (MLPs) mit nur 0,14 Millionen Parametern die neueste Leistung übertreffen kann. Eine umfassende Auswertung an den Datensätzen Human3.6M, AMASS und 3DPW zeigt, dass unsere Methode, die siMLPe genannt wird, konsistent alle anderen Ansätze übertrifft. Wir hoffen, dass unsere einfache Methode als starke Baseline für die Gemeinschaft dienen und eine Neubewertung des Problems der Vorhersage menschlicher Bewegungen ermöglichen kann. Der Code ist öffentlich unter \url{https://github.com/dulucas/siMLPe} verfügbar.