ViTPose++ : Vision Transformer pour l'estimation générique de la pose corporelle

Dans cet article, nous démontrons les propriétés surprenamment bonnes des transformateurs visuels simples pour l'estimation de la posture du corps sous différents angles, à savoir la simplicité de la structure du modèle, la scalabilité de sa taille, la flexibilité du paradigme d'entraînement et le transfert de connaissances entre les modèles, en utilisant un modèle de base simple appelé ViTPose. Plus précisément, ViTPose utilise un transformateur visuel simple et non hiérarchique comme encodeur pour coder les caractéristiques et un décodeur léger pour décoder les points clés du corps de manière ascendante ou descendante. Il peut être élargi d'environ 20 millions à 1 milliard de paramètres en profitant de la capacité de scalabilité et du haut niveau de parallélisme du transformateur visuel, établissant ainsi une nouvelle frontière Pareto pour le débit et les performances.En outre, ViTPose offre une grande flexibilité en ce qui concerne le type d'attention, la résolution d'entrée et les stratégies d'entraînement préalable et d'affinage. Sur cette base, un nouveau modèle ViTPose+ est proposé pour traiter des catégories hétérogènes de points clés corporels dans différents types de tâches d'estimation de la posture du corps grâce à la factorisation des connaissances, c'est-à-dire en adoptant des réseaux de neurones à propagation avant indifférents à la tâche (task-agnostic) et spécifiques à la tâche (task-specific) dans le transformateur. Nous montrons également expérimentalement que les connaissances des grands modèles ViTPose peuvent être facilement transférées aux petits modèles via un simple jeton de connaissance (knowledge token).Les résultats expérimentaux montrent que notre modèle ViTPose surpasse les méthodes représentatives sur le banc d'essai difficile MS COCO Human Keypoint Detection, tant dans le cadre descendante que ascendante. De plus, notre modèle ViTPose+ atteint simultanément des performances d'état de l'art sur une série de tâches d'estimation de la posture du corps, y compris MS COCO, AI Challenger, OCHuman et MPII pour la détection des points clés humains, COCO-Wholebody pour la détection des points clés du corps entier ainsi qu'AP-10K et APT-36K pour la détection des points clés animaux, sans sacrifier la vitesse d'inférence.