HyperAIHyperAI
vor 11 Tagen

GLA-GCN: Global-Local Adaptive Graph Convolutional Network für die 3D-Human-Pose-Schätzung aus monokularen Videos

Bruce X.B. Yu, Zhi Zhang, Yongxu Liu, Sheng-hua Zhong, Yan Liu, Chang Wen Chen
GLA-GCN: Global-Local Adaptive Graph Convolutional Network für die 3D-Human-Pose-Schätzung aus monokularen Videos
Abstract

Die Schätzung der 3D-Menschenpose wurde bereits über mehrere Jahrzehnte hinweg intensiv erforscht und hat bereits vielversprechende Ergebnisse hervorgebracht. Die 3D-Pose-Lifting-Technik stellt eine vielversprechende Forschungsrichtung innerhalb dieses Bereichs dar, bei der sowohl geschätzte als auch ground-truth-Pose-Daten zur Trainingsphase herangezogen werden. Bisherige Arbeiten im Bereich des Pose Lifting konzentrieren sich hauptsächlich auf die Verbesserung der Leistung der geschätzten Pose, erzielen jedoch in der Regel eine unterdurchschnittliche Performance, wenn sie auf Ground-truth-Pose-Daten getestet werden. Wir beobachten, dass die Qualität der geschätzten 2D-Pose signifikant gesteigert werden kann, wenn hochwertige 2D-Pose-Daten verwendet werden, beispielsweise durch Feinabstimmung der 2D-Pose oder den Einsatz fortschrittlicher 2D-Pose-Detektoren. Aus diesem Grund richten wir unseren Fokus darauf, die 3D-Pose-Lifting-Leistung mittels Ground-truth-Daten zu verbessern, um so zukünftig eine höhere Qualität bei der Schätzung der 2D-Pose zu erreichen. Um dieses Ziel zu verfolgen, wird in dieser Arbeit ein einfaches, jedoch wirksames Modell namens Global-Local Adaptive Graph Convolutional Network (GLA-GCN) vorgestellt. Unser GLA-GCN modelliert global die räumlich-zeitliche Struktur mittels einer Graph-Darstellung und verfolgt lokal die Gelenk-Features für die 3D-Pose-Schätzung über individuell verbundene Schichten. Um die Wirksamkeit unseres Modellentwurfs zu validieren, führen wir umfangreiche Experimente auf drei etablierten Benchmark-Datensätzen durch: Human3.6M, HumanEva-I und MPI-INF-3DHP. Die experimentellen Ergebnisse zeigen, dass unser GLA-GCN, wenn er mit Ground-truth-2D-Pose-Daten arbeitet, die state-of-the-art-Methoden deutlich übertrifft (beispielsweise eine Fehlerreduktion um bis zu etwa 3 %, 17 % und 14 % auf Human3.6M, HumanEva-I und MPI-INF-3DHP, jeweils). GitHub: https://github.com/bruceyo/GLA-GCN.

GLA-GCN: Global-Local Adaptive Graph Convolutional Network für die 3D-Human-Pose-Schätzung aus monokularen Videos | Neueste Forschungsarbeiten | HyperAI