DirectPose : estimation directe et bout-en-bout de la posture pour plusieurs personnes

Nous proposons le premier cadre de estimation de posture multi-personnes directe et end-to-end, nommé DirectPose. Inspiré par les récents détecteurs d’objets sans ancres, qui prédise directement les deux coins des boîtes englobantes cibles, le cadre proposé prédit directement les points clés spécifiques aux instances pour toutes les personnes à partir d’une image brute, éliminant ainsi le besoin de regroupement heuristique dans les méthodes bottom-up, ou de détection de boîtes englobantes et d’opérations RoI dans les méthodes top-down. Nous introduisons également un mécanisme novateur de calibration des points clés (KPAlign), qui surmonte la principale difficulté : le manque d’alignement entre les caractéristiques convolutives et les prédictions dans ce cadre end-to-end. KPAlign améliore considérablement les performances du cadre tout en maintenant sa capacité d’entraînement end-to-end. Grâce à un seul post-traitement, la suppression non maximale (NMS), notre cadre peut détecter les points clés de plusieurs personnes, avec ou sans boîtes englobantes, en une seule passe. Les expériences montrent que le paradigme end-to-end peut atteindre des performances compétitives, voire supérieures, par rapport aux meilleures méthodes précédentes, tant dans les approches bottom-up que top-down. Nous espérons que notre approche end-to-end offrira une nouvelle perspective au problème de l’estimation de posture humaine.