HyperAIHyperAI
vor 4 Monaten

Menschliche Pose-Schätzung mit räumlicher kontextueller Information

Hong Zhang; Hao Ouyang; Shu Liu; Xiaojuan Qi; Xiaoyong Shen; Ruigang Yang; Jiaya Jia
Menschliche Pose-Schätzung mit räumlicher kontextueller Information
Abstract

Wir untersuchen die Bedeutung räumlicher kontextueller Informationen bei der Schätzung menschlicher Körperhaltungen. Die meisten Stand-of-the-Art-Posenetzwerke werden in einem mehrstufigen Verfahren trainiert und erzeugen mehrere Nebenvorhersagen für eine tiefgreifende Überwachung. Auf dieser Grundlage stellen wir zwei konzeptuell einfache, aber dennoch rechnerisch effiziente Module vor: die Kaskaden-Vorhersage-Fusion (Cascade Prediction Fusion, CPF) und das Posengraph-Neuronale Netzwerk (Pose Graph Neural Network, PGNN), um die zugrunde liegende kontextuelle Information zu nutzen. Die Kaskaden-Vorhersage-Fusion sammelt Vorhersagemaps aus früheren Stufen, um informative Signale zu extrahieren. Die resultierenden Maps dienen auch als Prior, um die Vorhersage in nachfolgenden Stufen zu leiten. Um die räumliche Korrelation zwischen Gelenken zu fördern, lernt unser PGNN eine strukturierte Darstellung der menschlichen Körperhaltung als Graph. Direkte Nachrichtenübermittlung zwischen verschiedenen Gelenken wird ermöglicht und die räumliche Beziehung wird erfasst. Diese beiden Module erfordern sehr geringe rechnerische Komplexität. Experimentelle Ergebnisse zeigen, dass unsere Methode konsistent bessere Leistungen als frühere Methoden auf den Benchmarks MPII und LSP erzielt.