HyperAIHyperAI
vor 11 Tagen

Verbesserte 3D-Menschenpose-Schätzung aus Videos durch den Einsatz eines attentionbasierten neuronalen Netzwerks mit dilatierten Faltungen

Ruixu Liu, Ju Shen, He Wang, Chen Chen, Sen-ching Cheung, Vijayan K. Asari
Verbesserte 3D-Menschenpose-Schätzung aus Videos durch den Einsatz eines attentionbasierten neuronalen Netzwerks mit dilatierten Faltungen
Abstract

Der Aufmerksamkeitsmechanismus bietet einen sequenziellen Vorhersageansatz zur Lernung räumlicher Modelle mit verbesserter impliziter zeitlicher Konsistenz. In dieser Arbeit präsentieren wir einen systematischen Entwurf (von 2D zu 3D), wie herkömmliche Netzwerke und andere Formen von Einschränkungen in den Aufmerksamkeitsrahmen integriert werden können, um langreichweitige Abhängigkeiten für die Aufgabe der Pose-Schätzung zu lernen. Der Beitrag dieses Papiers besteht darin, einen systematischen Ansatz zur Gestaltung und Ausbildung von auf Aufmerksamkeit basierenden Modellen für die end-to-end-Pose-Schätzung bereitzustellen, wobei beliebige Videosequenzen als Eingabe mit Flexibilität und Skalierbarkeit unterstützt werden. Dies erreichen wir durch die Anpassung des zeitlichen Rezeptionsfelds mittels einer mehrskaligen Struktur von dilatierten Faltungen. Darüber hinaus kann die vorgeschlagene Architektur leicht in ein kausales Modell umgewandelt werden, was Echtzeitleistung ermöglicht. Jedes verfügbare 2D-Pose-Schätzungs-System, beispielsweise Mocap-Bibliotheken, kann auf einfache Weise ad-hoc integriert werden. Unser Verfahren erreicht die derzeit beste Leistung und übertrifft bestehende Methoden, indem der mittlere Positionierungsfehler pro Gelenk auf dem Human3.6M-Datensatz auf 33,4 mm reduziert wird.