HyperAIHyperAI
il y a 11 jours

Descriptions de posture humaine et attention axée sur le sujet pour une meilleure généralisation zéro-shot dans les tâches de classification centrées sur l'humain

Muhammad Saif Ullah Khan, Muhammad Ferjad Naeem, Federico Tombari, Luc Van Gool, Didier Stricker, Muhammad Zeshan Afzal
Descriptions de posture humaine et attention axée sur le sujet pour une meilleure généralisation zéro-shot dans les tâches de classification centrées sur l'humain
Résumé

Nous présentons une nouvelle chaîne de traitement basée sur les grands modèles linguistiques (LLM) pour générer des descriptions contextuelles des postures du corps humain dans des images, en ne s’appuyant que sur des attributs auxiliaires. Cette approche permet de construire le jeu de données MPII Pose Descriptions, comprenant des annotations en langage naturel pour 17 367 images montrant des personnes engagées dans 410 activités distinctes. Nous démontrons l’efficacité de nos descriptions de postures pour permettre une classification centrée sur l’humain en mode zero-shot à l’aide de CLIP. En outre, nous introduisons le cadre FocusCLIP, qui intègre une attention centrée sur le sujet (Subject-Focused Attention, SFA) dans CLIP afin d’améliorer l’alignement texte-image. Nos modèles ont été préentraînés sur le jeu de données MPII Pose Descriptions, et leur performance en mode zero-shot a été évaluée sur cinq jeux de données non vus, couvrant trois tâches différentes. FocusCLIP surpasse le modèle de référence CLIP, obtenant une augmentation moyenne de précision de 8,61 % (33,65 % contre 25,04 % pour CLIP). Notamment, notre approche améliore les résultats de 3,98 % pour la reconnaissance d’activités, de 14,78 % pour la classification d’âge et de 7,06 % pour la reconnaissance d’émotions. Ces résultats mettent en évidence le potentiel de l’intégration de descriptions détaillées des postures et de directives au niveau du sujet dans les cadres de préentraînement général pour améliorer les performances sur des tâches ultérieures.

Descriptions de posture humaine et attention axée sur le sujet pour une meilleure généralisation zéro-shot dans les tâches de classification centrées sur l'humain | Articles de recherche récents | HyperAI