Command Palette
Search for a command to run...
DPIT : Transformateur à double canal intégré pour l'estimation de la posture humaine
DPIT : Transformateur à double canal intégré pour l'estimation de la posture humaine
Shuaitao Zhao Kun Liu Yuhang Huang Qian Bao Dan Zeng Wu Liu
Résumé
L'estimation de la posture humaine vise à identifier les points clés de toutes les personnes présentes dans divers scénarios. Malgré des résultats prometteurs, les approches actuelles rencontrent encore plusieurs défis. Les méthodes haut-bas existantes traitent chaque individu séparément, sans tenir compte des interactions entre les personnes ni du contexte scénique dans lequel elles se trouvent. Par conséquent, la performance de détection humaine se dégrade fortement en cas d’occlusion sévère. D’un autre côté, les méthodes bas-haut considèrent simultanément toutes les personnes et captent les connaissances globales de l’image entière. Toutefois, elles sont moins précises que les méthodes haut-bas en raison de la variation d’échelle. Pour résoudre ces problèmes, nous proposons une nouvelle architecture, le Transformer intégré à deux chaînes (Dual-Pipeline Integrated Transformer, DPIT), en combinant les chaînes haut-bas et bas-haut afin d’exploiter les indices visuels provenant de champs réceptifs variés et d’assurer leur complémentarité. Plus précisément, DPIT comporte deux branches : la branche bas-haut traite l’image entière pour capturer les informations visuelles globales, tandis que la branche haut-bas extrait les représentations de caractéristiques visuelles locales à partir de la boîte englobante d’un seul individu. Ensuite, les représentations extraites par les deux branches sont introduites dans un encodeur Transformer pour fusionner de manière interactive les connaissances globales et locales. Par ailleurs, nous définissons des requêtes de points clés afin d’explorer à la fois les indices visuels du scénario global et ceux de la posture d’un individu isolé, permettant ainsi une complémentarité mutuelle entre les deux chaînes. À notre connaissance, il s’agit l’un des premiers travaux à intégrer, à l’aide de Transformers, les chaînes haut-bas et bas-haut pour l’estimation de posture humaine. Des expériences étendues sur les jeux de données COCO et MPII démontrent que notre DPIT atteint des performances comparables aux méthodes les plus avancées de l’état de l’art.