Einstufige Mehrpersonen-3D-Pose-Schätzung aus monokularen RGB-Bildern

Wir schlagen eine neue Einzelaufnahmemethode zur Schätzung der 3D-Pose mehrerer Personen in allgemeinen Szenen von einer monokularen RGB-Kamera vor. Unser Ansatz verwendet neuartige, verdeckungsrobuste Posekarten (ORPM), die es ermöglichen, die vollständige Körperpose sogar bei starken partiellen Verdeckungen durch andere Personen und Objekte in der Szene zu inferieren. Die ORPM erzeugen eine feste Anzahl von Karten, die die 3D-Gelenkpositionen aller Personen in der Szene kodieren. Durch die Zuordnung von Körperteilen können wir die 3D-Pose für eine beliebige Anzahl von Personen ohne explizite Vorhersage von Begrenzungsrahmen inferieren. Um unseren Ansatz zu trainieren, führen wir MuCo-3DHP ein, den ersten großen Trainingsdatensatz mit realen Bildern komplexer Mehrpersoneninteraktionen und Verdeckungen. Wir generieren einen umfangreichen Korpus von Mehrpersonenbildern durch das Komponieren von Bildern einzelner Personen (mit Ground Truth aus multiview-Bewegungsaufnahme). Wir evaluieren unsere Methode auf unserem neuen anspruchsvollen 3D-annotierten Mehrpersonentestset MuPoTs-3D, wo wir den aktuellen Stand der Technik erreichen. Um weitere Forschung im Bereich der Mehrpersonen-3D-Pose-Schätzung zu fördern, werden wir unsere neuen Datensätze sowie den dazugehörigen Code für Forschungszwecke öffentlich verfügbar machen.