HyperAIHyperAI
vor 17 Tagen

(Fusionformer): Ausnutzung der gemeinsamen Bewegungssynergie mit einem auf Transformer basierenden Fusionsnetzwerk für die 3D-Gestenerkennung

Xinwei Yu, Xiaohua Zhang
(Fusionformer): Ausnutzung der gemeinsamen Bewegungssynergie mit einem auf Transformer basierenden Fusionsnetzwerk für die 3D-Gestenerkennung
Abstract

Für die aktuelle Aufgabe der 3D-Gesten-Schätzung lernen eine Gruppe von Methoden hauptsächlich die Regeln der 2D-3D-Projektion aus räumlich-zeitlichen Korrelationen. Frühere Ansätze modellieren jedoch die globalen Merkmale aller Körpergelenke im Zeitbereich, ignorieren dabei jedoch die Bewegungstrajektorien einzelner Gelenke. Die neuere Arbeit [29] berücksichtigt, dass zwischen verschiedenen Gelenken unterschiedliche Bewegungsmuster bestehen, und behandelt die zeitliche Beziehung jedes Gelenks separat. Wir stellten jedoch fest, dass verschiedene Gelenke unter bestimmten spezifischen Bewegungen dieselben Bewegungstendenzen aufweisen. Daher führt unsere vorgeschlagene Fusionformer-Methode einen selbst- und einen gegenseitigen Trajektoriemodul basierend auf dem räumlich-zeitlichen Modul ein. Anschließend werden die globalen räumlich-zeitlichen Merkmale und die lokalen Gelenk-Trajektorienmerkmale parallel über ein lineares Netzwerk gefasst. Um den Einfluss schlechter 2D-Gesten auf die 3D-Projektionen zu minimieren, integrieren wir zudem ein Gelenkverfeinerungsnetzwerk, um die Konsistenz der 3D-Projektionen zu balancieren. Darüber hinaus evaluieren wir die vorgeschlagene Methode auf zwei Standard-Datensätzen (Human3.6M, MPI-INF-3DHP). Im Vergleich zur Baseline-Methode PoseFormer zeigen die Ergebnisse eine Verbesserung um 2,4 % im MPJPE und 4,3 % im P-MPJPE auf dem Human3.6M-Datensatz.