Schnelle und robuste Mehrpersonen-3D-Pose-Schätzung aus mehreren Ansichten

Dieses Papier behandelt das Problem der 3D-Pose-Schätzung für mehrere Personen in wenigen kalibrierten Kameraperspektiven. Die Hauptausforderung bei diesem Problem besteht darin, die Korrespondenzen zwischen den Ansichten unter Berücksichtigung verrauschter und unvollständiger 2D-Pose-Vorhersagen zu finden. Die meisten bisherigen Methoden begegnen dieser Herausforderung durch direktes Schließen in 3D unter Verwendung eines bildhaften Strukturmodells, was aufgrund des riesigen Zustandsraums ineffizient ist. Wir schlagen einen schnellen und robusten Ansatz vor, um dieses Problem zu lösen. Unser Kerngedanke besteht darin, einen Multi-Way-Matching-Algorithmus zu verwenden, um die erkannten 2D-Posen in allen Ansichten zu gruppieren. Jede resultierende Gruppe kodiert die 2D-Posen derselben Person über verschiedene Ansichten hinweg und konsistente Korrespondenzen zwischen den Schlüsselpunkten, aus denen die 3D-Pose jeder Person effektiv abgeleitet werden kann. Der vorgeschlagene konvexe Optimierungsbasierte Multi-Way-Matching-Algorithmus ist effizient und robust gegenüber fehlenden und falschen Erkennungen, ohne die Anzahl der Personen in der Szene zu kennen. Darüber hinaus schlagen wir vor, geometrische und Erscheinungsmerkmale für die Korrespondenzbestimmung zwischen den Ansichten zu kombinieren. Der vorgeschlagene Ansatz erzielt signifikante Leistungsverbesserungen im Vergleich zum Stand der Technik (96,3 % gegenüber 90,6 % und 96,9 % gegenüber 88 % auf den Campus- und Shelf-Datensätzen jeweils), während er für Echtzeitanwendungen effizient ist.