vor 2 Monaten

UniHPE: Ein Ansatz zur einheitlichen Schätzung der menschlichen Körperhaltung durch kontrastives Lernen

Jiang, Zhongyu ; Chai, Wenhao ; Li, Lei ; Zhou, Zhuoran ; Yang, Cheng-Yen ; Hwang, Jenq-Neng

Abstract

In letzter Zeit hat sich das Interesse an der Entwicklung effektiver Wahrnehmungstechniken zur Kombination von Informationen aus mehreren Modalitäten gesteigert. Dies beinhaltet die Ausrichtung von Merkmalen, die aus verschiedenen Quellen gewonnen werden, um eine effizientere Schulung mit größeren Datensätzen und Einschränkungen zu ermöglichen, sowie die Nutzung des reichen Informationsgehalts jeder Modalität. Die 2D- und 3D-Menschliche-Pose-Schätzung (HPE) sind zwei entscheidende Wahrnehmungsaufgaben im Bereich der Computer Vision, die zahlreiche Anwendungen in Bereichen wie Aktionserkennung, Mensch-Computer-Interaktion und Objektverfolgung haben. Dennoch gibt es nur wenige Fälle, in denen die Korrelation zwischen Bildern und 2D-/3D-menschlicher Pose unter Verwendung eines kontrastiven Paradigmas klar untersucht wurde. In dieser Arbeit schlagen wir UniHPE vor, einen einheitlichen Pipeline für die Schätzung menschlicher Pose, der Merkmale aus allen drei Modalitäten – 2D-Menschliche-Pose-Schätzung, lifting-basierter und bildbasierter 3D-Menschliche-Pose-Schätzung – in einem einzigen Prozess ausrichtt. Um gleichzeitig mehr als zwei Modalitäten auszurichten, stellen wir einen neuen singularwertbasierten kontrastiven Lernverlust vor, der verschiedene Modalitäten besser ausrichtt und die Leistung weiter verbessert. In unserer Evaluation erreicht UniHPE bemerkenswerte Leistungsindikatoren: MPJPE $50{,}5$ mm auf dem Human3.6M-Datensatz und PAMPJPE $51{,}6$ mm auf dem 3DPW-Datensatz. Unsere vorgeschlagene Methode birgt großes Potenzial zur Förderung des Bereichs der Computer Vision und zur Beitragsleistung zu verschiedenen Anwendungen.