3D-Pose-Schätzung mehrerer Personen in dichtbesetzten Szenen basierend auf der Mehransichtgeometrie

Epipolare Beschränkungen liegen im Kern der Merkmalszuordnung und der Tiefenschätzung in aktuellen Methoden zur 3D-Gesamtgestenanalyse mehrerer Personen mit mehreren Kameras. Trotz der zufriedenstellenden Leistung dieser Formulierung in lichteren Menschenmengen wird ihre Effektivität unter dichteren Bedingungen häufig herausgefordert, hauptsächlich aufgrund zweier Quellen von Mehrdeutigkeit. Erstens resultiert eine Fehlzuordnung von menschlichen Gelenken aus den einfachen Hinweisen, die durch die euklidischen Abstände zwischen Gelenken und Epipolarlinien bereitgestellt werden. Zweitens mangelt es der naiven Formulierung des Problems als Minimierung der kleinsten Quadrate an Robustheit. In diesem Paper verlassen wir die herkömmliche Formulierung der 3D-Gesamtgestenanalyse mehrerer Personen und reformulieren stattdessen das Problem als Pose-Schätzung in Menschenmengen. Unser Ansatz besteht aus zwei Schlüsselkomponenten: einem Graphenmodell zur schnellen Kreuzansichts-Zuordnung sowie einem Maximum-a-Posteriori-(MAP)-Schätzer zur Rekonstruktion der 3D-Gesten. Wir belegen die Wirksamkeit und Überlegenheit unseres vorgeschlagenen Ansatzes an vier Benchmark-Datensätzen.