HyperAIHyperAI
il y a 2 mois

Lite Pose : Conception d'architecture efficace pour l'estimation de la pose 2D humaine

Wang, Yihan ; Li, Muyang ; Cai, Han ; Chen, Wei-Ming ; Han, Song
Lite Pose : Conception d'architecture efficace pour l'estimation de la pose 2D humaine
Résumé

L'estimation de la posture joue un rôle crucial dans les applications de vision centrées sur l'humain. Cependant, il est difficile de déployer des modèles d'estimation de la posture basés sur HRNet (High-Resolution Network) sur des appareils périphériques à ressources limitées en raison du coût computationnel élevé (plus de 150 GMACs par image). Dans cet article, nous étudions la conception d'architectures efficaces pour l'estimation de la posture en temps réel de plusieurs personnes sur les périphériques. Nous montrons que les branches à haute résolution d'HRNet sont redondantes pour les modèles dans la zone à faible calcul grâce à nos expériences de réduction progressive. Leur suppression améliore à la fois l'efficacité et les performances. Inspirés par cette découverte, nous concevons LitePose, une architecture mono-branche efficace pour l'estimation de la posture, et introduisons deux approches simples pour renforcer sa capacité, notamment le Fusion Deconv Head et les Convolutions à Noyaux Grands (Large Kernel Convs). Le Fusion Deconv Head élimine la redondance dans les branches à haute résolution, permettant une fusion de caractéristiques sensible à l'échelle avec un faible surcoût. Les Convolutions à Noyaux Grands améliorent considérablement la capacité du modèle et son champ récepteur tout en maintenant un coût computationnel faible. Avec une augmentation de seulement 25% du calcul, les noyaux 7x7 obtiennent +14,0 mAP de mieux que les noyaux 3x3 sur le jeu de données CrowdPose. Sur les plateformes mobiles, LitePose réduit le temps de latence jusqu'à 5,0 fois sans sacrifier les performances, comparativement aux modèles précédents d'estimation de la posture efficaces d'avant-garde, repoussant ainsi les limites de l'estimation de la posture en temps réel de plusieurs personnes sur les périphériques. Notre code et nos modèles pré-entraînés sont disponibles sur https://github.com/mit-han-lab/litepose.