HyperAIHyperAI
il y a 11 jours

AggPose : Vision Transformer à agrégation profonde pour l'estimation de la posture chez les nourrissons

Xu Cao, Xiaoye Li, Liya Ma, Yi Huang, Xuan Feng, Zening Chen, Hongwu Zeng, Jianguo Cao
AggPose : Vision Transformer à agrégation profonde pour l'estimation de la posture chez les nourrissons
Résumé

L’évaluation du mouvement et de la posture des nouveau-nés permet aux pédiatres expérimentés de prédire des troubles du développement neurologique, ouvrant ainsi la voie à une intervention précoce pour les maladies associées. Toutefois, la plupart des approches les plus récentes basées sur l’intelligence artificielle pour l’estimation de la posture humaine se concentrent sur les adultes, et manquent de benchmarks publics dédiés à l’estimation de la posture des nourrissons. Dans ce travail, nous comblons cette lacune en proposant un nouveau jeu de données pour la posture des nourrissons ainsi qu’un modèle Deep Aggregation Vision Transformer (AggPose) pour l’estimation de la posture humaine. Ce modèle introduit un cadre de transformation complète entraîné rapidement, ne recourant pas à des opérations de convolution dans les phases initiales d’extraction des caractéristiques. Il généralise l’architecture Transformer + MLP à une aggregation profonde à haute résolution au sein des cartes de caractéristiques, permettant ainsi une fusion efficace des informations entre différents niveaux de vision. Nous pré-entraînons AggPose sur le jeu de données COCO pour l’estimation de posture, puis le testons sur notre nouveau jeu de données à grande échelle pour l’estimation de posture des nourrissons. Les résultats démontrent que AggPose est capable d’apprendre efficacement les caractéristiques multi-échelles à différentes résolutions, et améliore significativement les performances dans l’estimation de posture des nouveau-nés. Nous montrons que AggPose surpasser les modèles hybrides HRFormer et TokenPose sur le jeu de données pour nourrissons. En outre, AggPose obtient une amélioration moyenne de 0,8 AP sur le jeu de validation COCO pour l’estimation de posture. Le code source est disponible à l’adresse github.com/SZAR-LAB/AggPose.

AggPose : Vision Transformer à agrégation profonde pour l'estimation de la posture chez les nourrissons | Articles de recherche récents | HyperAI