Geometrische Pose-Affordanzen: 3D-Menschliche Pose unter Berücksichtigung von Szenenrestriktionen

Die vollständige 3D-Schätzung der menschlichen Haltung aus einem einzelnen Bild bleibt trotz vieler neuer Fortschritte eine herausfordernde Aufgabe. In dieser Arbeit untersuchen wir die Hypothese, dass starke vorherige Informationen über die Szenegeometrie verwendet werden können, um die Genauigkeit der Haltungsschätzung zu verbessern. Um diese Frage empirisch zu bearbeiten, haben wir einen neuen Datensatz namens Geometrische Haltungsaffordanz erstellt, der mehrfach aufgenommene Bilder von Menschen enthält, die mit einer Vielzahl reicher 3D-Umgebungen interagieren. Wir nutzten ein kommerzielles Bewegungserfassungssystem, um Goldstandard-Schätzungen der Haltung zu sammeln und genaue geometrische 3D-CAD-Modelle der Szene selbst zu erstellen.Um vorheriges Wissen über Szenenbeschränkungen in bestehende Frameworks zur Haltungsschätzung aus Bildern einzubinden, führen wir eine neue, ansichtsbasierte Darstellung der Szenegeometrie ein: eine mehrstufige Tiefenkarte (multi-layer depth map), die multihit-Raytracing verwendet, um entlang jeder Kameraperspektive mehrere Oberflächeneintritts- und -ausgangspunkte präzise zu kodieren. Wir schlagen zwei verschiedene Mechanismen vor, um die mehrstufige Tiefeninformation in die Haltungsschätzung zu integrieren: erstens als kodierte Strahlmerkmale, die bei der Erhebung des 2D-Bewegungsmodells in das vollständige 3D-Modell verwendet werden, und zweitens als differenzierbarer Verlustterm (differentiable loss), der gelernten Modellen anregt, geometrisch konsistente Haltungsschätzungen zu bevorzugen. Experimentell zeigen wir, dass diese Techniken die Genauigkeit der 3D-Haltungsschätzungen verbessern können, insbesondere in Anwesenheit von Verdeckungen und komplexer Szenegeometrie.