HyperAIHyperAI

Command Palette

Search for a command to run...

RTMW: Echtzeit-basierte Schätzung der 2D- und 3D-Ganzkörperpose mehrerer Personen

Tao Jiang Xinchen Xie Yining Li

Zusammenfassung

Die Schätzung der gesamten Körperpose ist eine anspruchsvolle Aufgabe, die die gleichzeitige Vorhersage von Schlüsselpunkten für Körper, Hände, Gesicht und Füße erfordert. Ziel der gesamten Körperpose-Schätzung ist die Vorhersage detaillierter Pose-Informationen für den menschlichen Körper, einschließlich Gesicht, Rumpf, Hände und Füße, was eine zentrale Rolle bei der Erforschung menschenzentrierter Wahrnehmung und -generierung sowie bei zahlreichen Anwendungen spielt. In dieser Arbeit präsentieren wir RTMW (Real-Time Multi-person Whole-body pose estimation models), eine Reihe hochleistungsfähiger Modelle für die 2D-/3D-gesamte Körperpose-Schätzung. Wir integrieren die RTMPose-Modellarchitektur mit FPN (Feature Pyramid Network) und HEM (Hierarchical Encoding Module), um die Pose-Informationen verschiedener Körperteile mit unterschiedlichen Skalen effektiver zu erfassen. Das Modell wird mit einer umfangreichen Sammlung von öffentlich verfügbaren Datensätzen menschlicher Schlüsselpunkte trainiert, die manuell ausgerichtete Annotationen enthalten, und durch eine zweistufige Distillationstrategie weiter verbessert. RTMW zeigt herausragende Leistung auf mehreren Benchmarks zur gesamten Körperpose-Schätzung, während gleichzeitig hohe Inferenzgeschwindigkeit und eine gute Einsatzfreundlichkeit gewährleistet werden. Wir veröffentlichen drei Modellgrößen: m/l/x, wobei RTMW-l eine mAP von 70,2 auf dem COCO-Wholebody-Benchmark erreicht – somit ist es das erste offene Quellcode-Modell, das diese Schwelle überschreitet. Gleichzeitig untersuchen wir die Leistung von RTMW bei der Aufgabe der 3D-gesamten Körperpose-Schätzung, wobei wir eine monokulare 3D-gesamte Körperpose-Schätzung basierend auf Koordinatenklassifikation durchführen. Wir hoffen, dass diese Arbeit sowohl der akademischen Forschung als auch industriellen Anwendungen zugutekommt. Der Quellcode und die Modelle sind öffentlich verfügbar unter: https://github.com/open-mmlab/mmpose/tree/main/projects/rtmpose


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp