il y a 7 jours

ViTPose : Baselines simples à transformer vision pour l'estimation de la posture humaine

Yufei Xu, Jing Zhang, Qiming Zhang, Dacheng Tao

Résumé

Bien que aucune connaissance spécifique de domaine ne soit prise en compte dans sa conception, les transformateurs de vision simples ont démontré des performances remarquables sur les tâches de reconnaissance visuelle. Toutefois, peu d’efforts ont été déployés pour explorer le potentiel de ces structures simples dans les tâches d’estimation de posture. Dans cet article, nous mettons en évidence de manière convaincante les capacités surprenantes des transformateurs de vision purs pour l’estimation de posture, sous plusieurs aspects : simplicité de la structure du modèle, scalabilité en taille du modèle, flexibilité du paradigme d’entraînement, ainsi que transférabilité des connaissances entre modèles, à travers une architecture de référence simple appelée ViTPose. Plus précisément, ViTPose utilise des transformateurs de vision purs et non hiérarchiques comme encodeurs pour extraire des caractéristiques à partir d’une instance humaine donnée, combinés à un décodeur léger dédié à l’estimation de posture. Ce modèle peut être étendu de 100M à 1B de paramètres, profitant ainsi de la capacité de mise à l’échelle élevée et de la forte parallélisation inhérentes aux transformateurs, établissant ainsi un nouveau front de Pareto entre débit (throughput) et performance. En outre, ViTPose s’avère très flexible quant au type d’attention, à la résolution d’entrée, aux stratégies d’entraînement préalable (pre-training) et de fine-tuning, ainsi qu’à la prise en charge de plusieurs tâches d’estimation de posture. Nous démontrons également empiriquement que les connaissances acquises par de grands modèles ViTPose peuvent être facilement transférées vers des modèles plus petits grâce à un simple « token de connaissance ». Les résultats expérimentaux montrent que notre modèle de base ViTPose surpasser des méthodes représentatives sur le défi difficile de détection de points clés MS COCO, tandis que le modèle le plus volumineux atteint un nouveau record d’état de l’art. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/ViTAE-Transformer/ViTPose.