X-Pose : Détection de tout point clé

Ce travail vise à résoudre un problème avancé de détection de points clés : comment détecter avec précision n'importe quel point clé dans des scénarios complexes du monde réel, impliquant des objets massifs, en désordre et ouverts, ainsi que leurs définitions de points clés associées. Les détecteurs de points clés actuels à haute performance échouent souvent face à ce problème en raison de leurs schémas en deux étapes, de conceptions de prompts sous-exploitées et d'une quantité limitée de données d'entraînement. Pour combler cet écart, nous proposons X-Pose, un cadre novateur intégré (end-to-end) utilisant des prompts multimodaux (c'est-à-dire visuels, textuels ou leurs combinaisons) pour détecter les points clés multiples d'objets articulés (par exemple, humains et animaux), rigides et souples au sein d'une image donnée. De plus, nous introduisons un jeu de données à grande échelle appelé UniKPT, qui unifie 13 jeux de données de détection de points clés comprenant 338 points clés sur 1 237 catégories et plus de 400 000 instances. L'entraînement avec UniKPT permet à X-Pose d'aligner efficacement le texte aux points clés et l'image aux points clés grâce à l'amélioration mutuelle des prompts multimodaux basée sur l'apprentissage par contraste intermodale. Nos résultats expérimentaux montrent que X-Pose réalise des améliorations notables de 27,7 AP, 6,44 PCK et 7,0 AP par rapport aux méthodes les plus performantes non promptables, basées sur des prompts visuels et basées sur des prompts textuels dans chaque configuration équitable respective. Plus important encore, les tests en conditions réelles démontrent la forte capacité de localisation fine et de généralisation de X-Pose sur différents styles d'images, catégories d'objets et poses, ouvrant une nouvelle voie pour la détection de points clés multiples dans les applications pratiques. Notre code source et notre jeu de données sont disponibles sur https://github.com/IDEA-Research/X-Pose.