Distribution-bewusste Einstufige Modelle für die Mehrpersonen-3D-Pose-Schätzung

In dieser Arbeit stellen wir ein neues distributionssensibles Einstufiges Modell (DAS) vor, das die anspruchsvolle Aufgabe der 3D-Pose-Schätzung für mehrere Personen angeht. Im Gegensatz zu den bestehenden Top-Down- und Bottom-Up-Methoden lokalisiert das vorgeschlagene DAS-Modell gleichzeitig die Positionen von Personen und deren entsprechende Körperteilen im 3D-Kamerasraum in einem einzigen Schritt. Dies führt zu einer vereinfachten Pipeline mit erhöhter Effizienz. Darüber hinaus lernt DAS die tatsächliche Verteilung der Körperteile für die Regression ihrer Positionen, anstatt wie frühere Arbeiten eine einfache Laplace- oder Gauß-Annahme zu treffen. Dies bietet wertvolle A-priori-Informationen für die Modellvorhersage und verbessert so das regressionsbasierte Verfahren, sodass es eine vergleichbare Leistung wie volumenbasierte Ansätze erzielt. Zudem nutzt DAS eine rekursive Aktualisierungsstrategie, um schrittweise dem Regressionsziel näherzukommen, was die Optimierungsschwierigkeiten lindert und die Regressionsleistung weiter steigert. DAS wird mit einem vollständigen Faltungsneuronalen Netzwerk implementiert und kann end-to-end gelernt werden. Umfassende Experimente auf den Benchmarks CMU Panoptic und MuPoTS-3D zeigen die überlegene Effizienz des vorgeschlagenen DAS-Modells, insbesondere eine Beschleunigung um 1,5-fach im Vergleich zum bisher besten Modell, sowie seine Stand der Technik entsprechende Genauigkeit bei der 3D-Pose-Schätzung für mehrere Personen.