Mehrfachansichts-Mehrpersonen-3D-Pose-Schätzung mit Plane-Sweep-Stereo

Bekannte Ansätze zur 3D-Gestenbestimmung mehrerer Personen aus mehreren Ansichten etablieren explizit Korrespondenzen zwischen den Ansichten, um 2D-Gestenerkennungen aus mehreren Kamerabildern zu gruppieren und die 3D-Gesten für jede Person zu schätzen. Die Herstellung solcher Kreuzansichtskorrespondenzen ist in Szenen mit mehreren Personen herausfordernd, und falsche Korrespondenzen führen zu suboptimaler Leistung in mehrstufigen Pipelines. In dieser Arbeit präsentieren wir einen Ansatz zur mehransichtigen 3D-Gestenbestimmung basierend auf der Plane-Sweep-Stereotechnik, der die Kreuzansichtsfusion und die 3D-Gestenrekonstruktion in einem einzigen Schritt gemeinsam löst. Konkret schlagen wir vor, für jedes Gelenk jeder 2D-Gestenbestimmung in einer Zielkameraansicht eine Tiefenschätzung durchzuführen. Die Konsistenz zwischen den Ansichten wird implizit durch mehrere Referenzkameraansichten über den Plane-Sweep-Algorithmus gewährleistet, um eine präzise Tiefenschätzung zu ermöglichen. Wir verwenden ein grob-zu-fein-Schema, bei dem zunächst die Person-übergreifende Tiefeninformation geschätzt wird, gefolgt von einer relativen Tiefenschätzung auf Gelenkebene pro Person. Die 3D-Gesten werden durch eine einfache Rückprojektion aus den geschätzten Tiefenwerten abgeleitet. Wir evaluieren unseren Ansatz an etablierten Benchmark-Datensätzen, wo er die bisherigen State-of-the-Art-Methoden übertrifft, während er gleichzeitig bemerkenswert effizient ist. Unser Code ist verfügbar unter https://github.com/jiahaoLjh/PlaneSweepPose.