RTMO: Auf dem Weg zu hochleistungsfaähigen Einstufigen Echtzeit-Mehrpersonen-Pose-Schätzungen

Die Echtzeit-Mehrpersonen-Pose-Schätzung stellt erhebliche Herausforderungen bei der Balance von Geschwindigkeit und Genauigkeit dar. Während zweistufige Top-Down-Methoden langsamer werden, je mehr Personen auf dem Bild zu sehen sind, scheitern bestehende einstufige Methoden oft daran, sowohl hohe Genauigkeit als auch Echtzeitleistung gleichzeitig zu gewährleisten. In dieser Arbeit wird RTMO vorgestellt, ein einstufiges Pose-Schätzungsframework, das Koordinatenklassifizierung nahtlos integriert, indem es Keypoints mit Hilfe von dualen eindimensionalen Heatmaps innerhalb der YOLO-Architektur darstellt. Dies ermöglicht eine Genauigkeit, die den Top-Down-Methoden vergleichbar ist, während gleichzeitig eine hohe Geschwindigkeit aufrechterhalten wird. Wir schlagen einen dynamischen Koordinatenklassifizierer sowie eine angepasste Verlustfunktion für das Lernen von Heatmaps vor, die speziell entwickelt wurden, um die Inkompatibilitäten zwischen Koordinatenklassifizierung und dichten Vorhersagemodellen zu beheben. RTMO übertrifft die besten einstufigen Pose-Schätzer des aktuellen Standes der Technik und erreicht auf COCO einen 1.1% höheren AP-Wert (Average Precision), wobei es etwa neunmal schneller arbeitet als diese mit demselben Backbone. Unser größtes Modell, RTMO-l, erreicht auf COCO val2017 einen AP-Wert von 74.8% und 141 FPS auf einer einzelnen V100-GPU, was seine Effizienz und Genauigkeit unterstreicht. Der Code und die Modelle sind unter https://github.com/open-mmlab/mmpose/tree/main/projects/rtmo verfügbar.