Multi-Graph Convolution Network für die Pose-Vorhersage

In letzter Zeit hat sich ein wachsender Interesse an der Vorhersage menschlicher Bewegungen entwickelt, die darin besteht, zukünftige Körperpose basierend auf beobachteten Pose-Sequenzen vorherzusagen. Diese Aufgabe ist aufgrund der Modellierung von räumlichen und zeitlichen Beziehungen komplex. Die am häufigsten verwendeten Modelle für diese Aufgabe sind autoregressive Modelle wie rekurrente neuronale Netze (RNNs) oder deren Varianten sowie Transformer-Netzwerke. RNNs weisen jedoch mehrere Nachteile auf, wie beispielsweise verschwindende oder explodierende Gradienten. Andere Forscher haben versucht, das Kommunikationsproblem in der räumlichen Dimension zu lösen, indem sie Graph-Convolutional Networks (GCN) und Long Short-Term Memory (LSTM)-Modelle integrieren. Diese Ansätze behandeln räumliche und zeitliche Informationen getrennt, was die Effektivität einschränkt. Um dieses Problem zu beheben, schlagen wir einen neuartigen Ansatz namens Multi-Graph Convolution Network (MGCN) für die 3D-Bewegungsvorhersage menschlicher Körper vor. Dieses Modell erfasst räumliche und zeitliche Informationen gleichzeitig, indem es einen erweiterten Graphen für Pose-Sequenzen einführt. Mehrere Frames liefern mehrere Teile, die in einer einzigen Graph-Instanz miteinander verbunden werden. Darüber hinaus untersuchen wir auch den Einfluss der natürlichen Struktur und sequenzbewusster Aufmerksamkeit auf unser Modell. In unserer experimentellen Bewertung auf großen Benchmark-Datensätzen wie Human3.6M, AMSS und 3DPW übertrifft MGCN die bisher besten Ergebnisse in der Pose-Vorhersage.