RTMW: Echtzeit-basierte Schätzung der 2D- und 3D-Ganzkörperpose mehrerer Personen

Die Schätzung der gesamten Körperpose ist eine anspruchsvolle Aufgabe, die die gleichzeitige Vorhersage von Schlüsselpunkten für Körper, Hände, Gesicht und Füße erfordert. Ziel der gesamten Körperpose-Schätzung ist die Vorhersage detaillierter Pose-Informationen für den menschlichen Körper, einschließlich Gesicht, Rumpf, Hände und Füße, was eine zentrale Rolle bei der Erforschung menschenzentrierter Wahrnehmung und -generierung sowie bei zahlreichen Anwendungen spielt. In dieser Arbeit präsentieren wir RTMW (Real-Time Multi-person Whole-body pose estimation models), eine Reihe hochleistungsfähiger Modelle für die 2D-/3D-gesamte Körperpose-Schätzung. Wir integrieren die RTMPose-Modellarchitektur mit FPN (Feature Pyramid Network) und HEM (Hierarchical Encoding Module), um die Pose-Informationen verschiedener Körperteile mit unterschiedlichen Skalen effektiver zu erfassen. Das Modell wird mit einer umfangreichen Sammlung von öffentlich verfügbaren Datensätzen menschlicher Schlüsselpunkte trainiert, die manuell ausgerichtete Annotationen enthalten, und durch eine zweistufige Distillationstrategie weiter verbessert. RTMW zeigt herausragende Leistung auf mehreren Benchmarks zur gesamten Körperpose-Schätzung, während gleichzeitig hohe Inferenzgeschwindigkeit und eine gute Einsatzfreundlichkeit gewährleistet werden. Wir veröffentlichen drei Modellgrößen: m/l/x, wobei RTMW-l eine mAP von 70,2 auf dem COCO-Wholebody-Benchmark erreicht – somit ist es das erste offene Quellcode-Modell, das diese Schwelle überschreitet. Gleichzeitig untersuchen wir die Leistung von RTMW bei der Aufgabe der 3D-gesamten Körperpose-Schätzung, wobei wir eine monokulare 3D-gesamte Körperpose-Schätzung basierend auf Koordinatenklassifikation durchführen. Wir hoffen, dass diese Arbeit sowohl der akademischen Forschung als auch industriellen Anwendungen zugutekommt. Der Quellcode und die Modelle sind öffentlich verfügbar unter: https://github.com/open-mmlab/mmpose/tree/main/projects/rtmpose