RTMPose: Echtzeit-Mehrpersonen-Pose-Schätzung basierend auf MMPose

Neuere Studien zur 2D-Pose-Schätzung haben auf öffentlichen Benchmarks ausgezeichnete Leistungen erzielt, die Anwendung in der Industriegemeinschaft leidet jedoch weiterhin unter umfangreichen Modellparametern und hoher Latenz. Um diese Lücke zu schließen, untersuchen wir empirisch Schlüssel faktoren der Pose-Schätzung, einschließlich Paradigmen, Modellarchitektur, Trainingsstrategie und Bereitstellung, und präsentieren einen hochleistungsfähigen Echtzeit-Mehrpersonen-Pose-Schätzungsrahmen, RTMPose, basierend auf MMPose. Unser RTMPose-m erreicht 75,8 % AP (Average Precision) auf COCO mit über 90 FPS (Frames pro Sekunde) auf einem Intel i7-11700 CPU und über 430 FPS auf einer NVIDIA GTX 1660 Ti GPU. RTMPose-l erreicht 67,0 % AP auf COCO-WholeBody mit über 130 FPS. Um RTMPose's Fähigkeit in kritischen Echtzeitanwendungen weiter zu bewerten, geben wir auch die Leistung nach der Bereitstellung auf mobilen Geräten an. Unser RTMPose-s erreicht 72,2 % AP auf COCO mit über 70 FPS auf einem Snapdragon 865 Chip und übertreffen damit bestehende Open-Source-Bibliotheken. Der Quellcode und die Modelle sind unter https://github.com/open-mmlab/mmpose/tree/1.x/projects/rtmpose veröffentlicht.