Dynamische Graphenbasierte Inferenz für die Schätzung von Mehrpersonen-3D-Posen

Die Schätzung der 3D-Pose von mehreren Personen ist eine herausfordernde Aufgabe aufgrund von Verdeckungen und Tiefenunsicherheiten, insbesondere in Fällen von Menschenansammlungen. Um diese Probleme zu lösen, erforschen die meisten existierenden Methoden das Modellieren von Körpertexturhinweisen durch die Verbesserung der Merkmalsrepräsentation mit Graph-Neural-Netzwerken oder durch Hinzufügen struktureller Einschränkungen. Allerdings sind diese Methoden aufgrund ihrer einheitswurzelbasierten Formulierung nicht robust, bei der 3D-Posen von einem Wurzelknoten ausgehend mit einem vordefinierten Graph dekodiert werden.In dieser Arbeit schlagen wir GR-M3D vor, welches die Mehrpersonen-3D-Pose-Schätzung mittels dynamischer Graph-Reasoning modelliert. Der Dekodiergraph in GR-M3D wird vorausgesagt anstelle vordefiniert zu sein. Insbesondere generiert es zunächst mehrere Datenkarten und verbessert diese mit einem Modul zur Skalen- und Tiefenbewussten Verfeinerung (SDAR). Anschließend werden mehrere Wurzel-Schlüsselpunkte und dichte Dekodierungspfade für jede Person aus diesen Datenkarten geschätzt. Basierend darauf werden dynamische Dekodiergraphen erstellt, indem Pfadgewichte den Dekodierungspfaden zugewiesen werden, wobei die Pfadgewichte aus den verbesserten Datenkarten abgeleitet werden. Dieser Prozess wird als dynamisches Graph-Reasoning (DGR) bezeichnet. Schließlich werden die 3D-Posen gemäß den dynamischen Dekodiergraphen für jede erkannte Person dekodiert.GR-M3D kann die Struktur des Dekodiergraphen implizit anpassen, indem es weiche Pfadgewichte nach den Eingabedaten zuordnet, was die Dekodiergraphen so weit wie möglich an verschiedene Eingabe-Personen anpasst und sie fähiger macht, Verdeckungen und Tiefenunsicherheiten als frühere Methoden zu bewältigen. Wir zeigen empirisch, dass der vorgeschlagene bottom-up-Ansatz sogar top-down-Methoden übertrifft und auf drei 3D-Pose-Datensätzen state-of-the-art-Ergebnisse erzielt.