HyperAIHyperAI
il y a 2 mois

RTMO : Vers une estimation de pose multi-personne en temps réel à haute performance en une seule étape

Lu, Peng ; Jiang, Tao ; Li, Yining ; Li, Xiangtai ; Chen, Kai ; Yang, Wenming
RTMO : Vers une estimation de pose multi-personne en temps réel à haute performance en une seule étape
Résumé

L'estimation en temps réel de la posture de plusieurs personnes présente des défis importants en matière d'équilibre entre vitesse et précision. Bien que les méthodes top-down en deux étapes ralentissent avec l'augmentation du nombre de personnes dans l'image, les méthodes existantes en une étape échouent souvent à fournir simultanément une haute précision et des performances en temps réel. Cet article introduit RTMO, un cadre d'estimation de la posture en une étape qui intègre sans heurt la classification des coordonnées en représentant les points clés par des cartes thermiques 1-D duals au sein de l'architecture YOLO, atteignant une précision comparable aux méthodes top-down tout en maintenant une vitesse élevée. Nous proposons un classificateur de coordonnées dynamique et une fonction de perte spécifique pour l'apprentissage des cartes thermiques, conçus spécifiquement pour résoudre les incompatibilités entre la classification des coordonnées et les modèles de prédiction dense. RTMO surpasse les estimateurs de posture en une étape les plus avancés actuellement disponibles, obtenant un AP 1,1% plus élevé sur COCO tout en opérant environ 9 fois plus rapidement avec le même backbone. Notre modèle le plus performant, RTMO-l, atteint 74,8% d'AP sur COCO val2017 et 141 FPS sur une seule GPU V100, démontrant ainsi son efficacité et sa précision. Le code source et les modèles sont disponibles à l'adresse suivante : https://github.com/open-mmlab/mmpose/tree/main/projects/rtmo.

RTMO : Vers une estimation de pose multi-personne en temps réel à haute performance en une seule étape | Articles de recherche récents | HyperAI