HyperAIHyperAI

Command Palette

Search for a command to run...

GLA-GCN: Global-Local Adaptive Graph Convolutional Network für die 3D-Human-Pose-Schätzung aus monokularen Videos

Bruce X.B. Yu Zhi Zhang Yongxu Liu Sheng-hua Zhong Yan Liu Chang Wen Chen

Zusammenfassung

Die Schätzung der 3D-Menschenpose wurde bereits über mehrere Jahrzehnte hinweg intensiv erforscht und hat bereits vielversprechende Ergebnisse hervorgebracht. Die 3D-Pose-Lifting-Technik stellt eine vielversprechende Forschungsrichtung innerhalb dieses Bereichs dar, bei der sowohl geschätzte als auch ground-truth-Pose-Daten zur Trainingsphase herangezogen werden. Bisherige Arbeiten im Bereich des Pose Lifting konzentrieren sich hauptsächlich auf die Verbesserung der Leistung der geschätzten Pose, erzielen jedoch in der Regel eine unterdurchschnittliche Performance, wenn sie auf Ground-truth-Pose-Daten getestet werden. Wir beobachten, dass die Qualität der geschätzten 2D-Pose signifikant gesteigert werden kann, wenn hochwertige 2D-Pose-Daten verwendet werden, beispielsweise durch Feinabstimmung der 2D-Pose oder den Einsatz fortschrittlicher 2D-Pose-Detektoren. Aus diesem Grund richten wir unseren Fokus darauf, die 3D-Pose-Lifting-Leistung mittels Ground-truth-Daten zu verbessern, um so zukünftig eine höhere Qualität bei der Schätzung der 2D-Pose zu erreichen. Um dieses Ziel zu verfolgen, wird in dieser Arbeit ein einfaches, jedoch wirksames Modell namens Global-Local Adaptive Graph Convolutional Network (GLA-GCN) vorgestellt. Unser GLA-GCN modelliert global die räumlich-zeitliche Struktur mittels einer Graph-Darstellung und verfolgt lokal die Gelenk-Features für die 3D-Pose-Schätzung über individuell verbundene Schichten. Um die Wirksamkeit unseres Modellentwurfs zu validieren, führen wir umfangreiche Experimente auf drei etablierten Benchmark-Datensätzen durch: Human3.6M, HumanEva-I und MPI-INF-3DHP. Die experimentellen Ergebnisse zeigen, dass unser GLA-GCN, wenn er mit Ground-truth-2D-Pose-Daten arbeitet, die state-of-the-art-Methoden deutlich übertrifft (beispielsweise eine Fehlerreduktion um bis zu etwa 3 %, 17 % und 14 % auf Human3.6M, HumanEva-I und MPI-INF-3DHP, jeweils). GitHub: https://github.com/bruceyo/GLA-GCN.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
GLA-GCN: Global-Local Adaptive Graph Convolutional Network für die 3D-Human-Pose-Schätzung aus monokularen Videos | Paper | HyperAI