HyperAIHyperAI
il y a 2 mois

Poseidon : Une architecture basée sur ViT pour l’estimation de pose multi-images avec pondération adaptative des images et fusion de caractéristiques multi-échelles

Pace, Cesare Davide ; De Nunzio, Alessandro Marco ; De Stefano, Claudio ; Fontanella, Francesco ; Molinara, Mario
Poseidon : Une architecture basée sur ViT pour l’estimation de pose multi-images avec pondération adaptative des images et fusion de caractéristiques multi-échelles
Résumé

L'estimation de la posture humaine, une tâche cruciale en vision par ordinateur, consiste à détecter et localiser les articulations humaines dans des images et des vidéos. Bien que l'estimation de la posture sur un seul cadre ait connu des progrès significatifs, elle échoue souvent à capturer les dynamiques temporelles nécessaires pour comprendre les mouvements complexes et continus. Nous proposons Poseidon, une nouvelle architecture d'estimation de la posture multi-cadres qui étend le modèle ViTPose en intégrant des informations temporelles pour améliorer la précision et la robustesse, afin de surmonter ces limitations. Poseidon introduit des innovations clés :1) Un mécanisme de Poids de Cadre Adaptatif (Adaptive Frame Weighting - AFW) qui priorise dynamiquement les cadres en fonction de leur pertinence, garantissant que le modèle se concentre sur les données les plus informatives ;2) Un module de Fusion de Caractéristiques Multi-Échelles (Multi-Scale Feature Fusion - MSFF) qui agrège des caractéristiques provenant de différentes couches du backbone pour capturer à la fois les détails fins et les sémantiques de haut niveau ;3) Un module d'Attention Croisée pour un échange efficace d'informations entre les cadres centraux et contextuels, renforçant la cohérence temporelle du modèle.L'architecture proposée améliore les performances dans des scénarios vidéo complexes et offre une scalabilité et une efficacité computationnelle adaptées aux applications réelles. Notre approche atteint des performances de pointe sur les jeux de données PoseTrack21 et PoseTrack18, avec des scores mAP respectivement de 88,3 et 87,8, surpassant ainsi les méthodes existantes.

Poseidon : Une architecture basée sur ViT pour l’estimation de pose multi-images avec pondération adaptative des images et fusion de caractéristiques multi-échelles | Articles de recherche récents | HyperAI