RTMPose : Estimation en temps réel de la pose de plusieurs personnes basée sur MMPose

Des études récentes sur l'estimation de la posture en 2D ont obtenu d'excellentes performances sur des benchmarks publics, mais son application dans la communauté industrielle souffre encore de paramètres de modèle lourds et d'une latence élevée. Afin de combler cet écart, nous explorons empiriquement les facteurs clés de l'estimation de la posture, notamment le paradigme, l'architecture du modèle, la stratégie d'entraînement et le déploiement, et présentons un cadre d'estimation de la posture multi-personnes à haute performance et en temps réel, RTMPose, basé sur MMPose. Notre RTMPose-m atteint 75,8 % AP (Average Precision) sur COCO avec plus de 90 FPS (images par seconde) sur un processeur Intel i7-11700 et plus de 430 FPS sur une carte graphique NVIDIA GTX 1660 Ti. De plus, notre RTMPose-l atteint 67,0 % AP sur COCO-WholeBody avec plus de 130 FPS. Pour évaluer davantage les capacités de RTMPose dans des applications critiques en temps réel, nous rapportons également ses performances après son déploiement sur un appareil mobile. Notre RTMPose-s atteint 72,2 % AP sur COCO avec plus de 70 FPS sur une puce Snapdragon 865, surpassant ainsi les bibliothèques open-source existantes. Le code source et les modèles sont disponibles à l'adresse suivante : https://github.com/open-mmlab/mmpose/tree/1.x/projects/rtmpose.