HyperAIHyperAI
il y a 3 mois

Vers une détection de points clés humains à haute performance

Jing Zhang, Zhe Chen, Dacheng Tao
Vers une détection de points clés humains à haute performance
Résumé

La détection des points clés humains à partir d’une seule image reste un défi majeur en raison des occlusions, du flou, des variations d’éclairage et de l’échelle. Dans cet article, nous abordons ce problème sous trois angles : en concevant une architecture de réseau efficace, en proposant trois stratégies d’entraînement efficaces, et en exploitant quatre techniques de post-traitement utiles. Premièrement, nous observons que l’information contextuelle joue un rôle crucial dans la déduction de la configuration du corps humain ainsi que des points clés invisibles. Inspirés par cette constatation, nous proposons un module appelé Cascaded Context Mixer (CCM), qui intègre efficacement les informations contextuelles spatiales et canalaires, tout en les affinant progressivement. Ensuite, afin d’optimiser au maximum la capacité de représentation du CCM, nous développons une stratégie d’extraction de personnes en situation de négatifs difficiles (hard-negative person detection mining) ainsi qu’une stratégie d’entraînement conjoint (joint-training) exploitant une grande quantité de données non étiquetées. Cette approche permet au CCM d’apprendre des caractéristiques discriminatives à partir d’un ensemble massif et diversifié de postures. Troisièmement, nous introduisons plusieurs techniques de raffinement à sous-pixel pour le post-traitement des prédictions de points clés, afin d’améliorer la précision de détection. Des expérimentations étendues sur le benchmark MS COCO pour la détection de points clés démontrent l’efficacité supérieure de la méthode proposée par rapport aux méthodes de pointe (SOTA) existantes. Notre modèle unique atteint des performances comparables à celles du gagnant du concours COCO Keypoint Detection 2018. Quant au modèle final combiné (ensemble), il établit un nouveau record SOTA sur ce benchmark.