HyperAIHyperAI

Command Palette

Search for a command to run...

ViTPose : Baselines simples à transformer vision pour l'estimation de la posture humaine

Yufei Xu Jing Zhang Qiming Zhang Dacheng Tao

Résumé

Bien que aucune connaissance spécifique de domaine ne soit prise en compte dans sa conception, les transformateurs de vision simples ont démontré des performances remarquables sur les tâches de reconnaissance visuelle. Toutefois, peu d’efforts ont été déployés pour explorer le potentiel de ces structures simples dans les tâches d’estimation de posture. Dans cet article, nous mettons en évidence de manière convaincante les capacités surprenantes des transformateurs de vision purs pour l’estimation de posture, sous plusieurs aspects : simplicité de la structure du modèle, scalabilité en taille du modèle, flexibilité du paradigme d’entraînement, ainsi que transférabilité des connaissances entre modèles, à travers une architecture de référence simple appelée ViTPose. Plus précisément, ViTPose utilise des transformateurs de vision purs et non hiérarchiques comme encodeurs pour extraire des caractéristiques à partir d’une instance humaine donnée, combinés à un décodeur léger dédié à l’estimation de posture. Ce modèle peut être étendu de 100M à 1B de paramètres, profitant ainsi de la capacité de mise à l’échelle élevée et de la forte parallélisation inhérentes aux transformateurs, établissant ainsi un nouveau front de Pareto entre débit (throughput) et performance. En outre, ViTPose s’avère très flexible quant au type d’attention, à la résolution d’entrée, aux stratégies d’entraînement préalable (pre-training) et de fine-tuning, ainsi qu’à la prise en charge de plusieurs tâches d’estimation de posture. Nous démontrons également empiriquement que les connaissances acquises par de grands modèles ViTPose peuvent être facilement transférées vers des modèles plus petits grâce à un simple « token de connaissance ». Les résultats expérimentaux montrent que notre modèle de base ViTPose surpasser des méthodes représentatives sur le défi difficile de détection de points clés MS COCO, tandis que le modèle le plus volumineux atteint un nouveau record d’état de l’art. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/ViTAE-Transformer/ViTPose.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp