Lernen dynamischer menschlicher Gelenk-Ähnlichkeiten für die 3D-Gelenk-Schätzung in Videos

Graph Convolution Network (GCN) wurde erfolgreich für die 3D-Menschenpose-Schätzung in Videos eingesetzt. Allerdings basiert sie häufig auf einer festen menschlichen Gelenkaffinität, die durch den menschlichen Skelett aufgezeichnet ist. Dies kann die Anpassungsfähigkeit des GCN einschränken, um komplexe räumlich-zeitliche Pose-Variationen in Videos zu bewältigen. Um dieses Problem zu mildern, schlagen wir ein neuartiges Dynamisches Graph-Netzwerk (DG-Net) vor, das die menschliche Gelenkaffinität dynamisch erkennt und die 3D-Pose durch adaptives Lernen räumlicher und zeitlicher Gelenkbeziehungen aus Videos schätzt. Im Gegensatz zu traditionellen Graph-Faltungsschichten führen wir dynamische räumliche und zeitliche Graph-Faltung (DSG/DTG) ein, um für jedes Video-Beispiel die räumliche und zeitliche Affinität zwischen menschlichen Gelenken basierend auf dem räumlichen Abstand bzw. der zeitlichen Bewegungsähnlichkeit zwischen den Gelenken zu ermitteln. Dadurch können sie effektiv identifizieren, welche Gelenke räumlich näher beieinander liegen und/oder eine konsistente Bewegung aufweisen, was hilft, die Tiefenambiguität und die Bewegungsunsicherheit zu verringern, wenn 2D-Pose-Daten in 3D-Pose umgewandelt werden. Wir führen umfangreiche Experimente auf drei etablierten Benchmarks durch, beispielsweise Human3.6M, HumanEva-I und MPI-INF-3DHP, wobei DG-Net eine Reihe aktueller SOTA-Ansätze bei geringerem Eingabeframes und kleinerem Modellumfang übertrifft.