Zwei-Hand Globale 3D-Pose-Schätzung mit Mono-RGB

Wir bewältigen die anspruchsvolle Aufgabe, globale 3D-Gelenkpositionen für beide Hände mittels einzig monokularer RGB-Eingabebilder zu schätzen. Wir schlagen einen neuartigen mehrstufigen Pipeline basierend auf Faltungsneuronalen Netzen (CNN) vor, der die Hände trotz Verdeckung durch beide Hände und komplexem Hintergrundrauschen präzise segmentiert und lokalisiert und die 2D- und 3D-Kanonischen Gelenkpositionen ohne Tiefeninformation schätzt. Die globalen Gelenkpositionen im Bezug zum Kamer Ursprung werden unter Verwendung der Handhaltungsschätzungen und der tatsächlichen Länge des Schlüsselknochens mit einem neuartigen Projektionsalgorithmus berechnet. Um die CNNs für diese neue Aufgabe zu trainieren, führen wir eine umfangreiche synthetische 3D-Handhaltungsdatensatz ein. Wir zeigen, dass unser System bei der Schätzung von 3D-kanonischen Handhaltungen in Benchmark-Datensätzen, die nur RGB-Information enthalten, frühere Arbeiten übertrifft. Zudem präsentieren wir die erste Arbeit, die eine genaue globale 3D-Handverfolgung für beide Hände unter Verwendung von RGB-eingaben erreicht, und bieten umfassende quantitative und qualitative Bewertungen.请注意,这里有一些小的调整以适应德语的语法和表达习惯,同时保持了原文的专业性和准确性。例如,“Kamer Ursprung”应为“Kameraursprung”,但为了保持句子的流畅性,这里进行了细微的调整。此外,“Schlüsselknochen”(关键骨)在上下文中可能指的是特定的手部骨骼,具体名称可以根据实际情况进一步确认。