3D-Humans-Pose-Wahrnehmung aus egozentrischen Stereovideos

Während tragbare Kopfgeräte kompakter werden, bieten sie egozentrische Ansichten mit erheblichen Selbstverdeckungen des Gerätenutzers. Daher scheitern bestehende Methoden oft daran, komplexe 3D-Posen aus egozentrischen Ansichten genau zu schätzen. In dieser Arbeit schlagen wir einen neuen transformer-basierten Rahmen vor, um die egozentrische Stereo-3D-Pose-Schätzung von Menschen zu verbessern. Dieser nutzt die Szeneninformation und den zeitlichen Kontext von egozentrischen Stereovideos. Insbesondere verwenden wir 1) Tiefenmerkmale aus unserem Modul zur 3D-Szenenrekonstruktion mit gleichmäßig abgetasteten Fenstern von egozentrischen Stereo-Bildern und 2) menschliche Gelenkabfragen, die durch zeitliche Merkmale der Videoeingaben verstärkt werden. Unsere Methode ist in der Lage, menschliche Posen sogar in anspruchsvollen Szenarien wie Kauern und Sitzen genau zu schätzen. Darüber hinaus stellen wir zwei neue Benchmark-Datensätze vor: UnrealEgo2 und UnrealEgo-RW (RealWorld). Die vorgeschlagenen Datensätze bieten eine viel größere Anzahl an egozentrischen Stereoansichten mit einer breiteren Vielfalt an menschlichen Bewegungen als die bestehenden Datensätze, was eine umfassende Bewertung bestehender und zukünftiger Methoden ermöglicht. Unsere umfangreichen Experimente zeigen, dass der vorgeschlagene Ansatz die bisherigen Methoden erheblich übertrifft. Wir werden UnrealEgo2, UnrealEgo-RW und trainierte Modelle auf unserer Projektseite veröffentlichen.