HyperAIHyperAI

Command Palette

Search for a command to run...

Descriptions de posture humaine et attention axée sur le sujet pour une meilleure généralisation zéro-shot dans les tâches de classification centrées sur l'humain

Muhammad Saif Ullah Khan Muhammad Ferjad Naeem Federico Tombari Luc Van Gool Didier Stricker Muhammad Zeshan Afzal

Résumé

Nous présentons une nouvelle chaîne de traitement basée sur les grands modèles linguistiques (LLM) pour générer des descriptions contextuelles des postures du corps humain dans des images, en ne s’appuyant que sur des attributs auxiliaires. Cette approche permet de construire le jeu de données MPII Pose Descriptions, comprenant des annotations en langage naturel pour 17 367 images montrant des personnes engagées dans 410 activités distinctes. Nous démontrons l’efficacité de nos descriptions de postures pour permettre une classification centrée sur l’humain en mode zero-shot à l’aide de CLIP. En outre, nous introduisons le cadre FocusCLIP, qui intègre une attention centrée sur le sujet (Subject-Focused Attention, SFA) dans CLIP afin d’améliorer l’alignement texte-image. Nos modèles ont été préentraînés sur le jeu de données MPII Pose Descriptions, et leur performance en mode zero-shot a été évaluée sur cinq jeux de données non vus, couvrant trois tâches différentes. FocusCLIP surpasse le modèle de référence CLIP, obtenant une augmentation moyenne de précision de 8,61 % (33,65 % contre 25,04 % pour CLIP). Notamment, notre approche améliore les résultats de 3,98 % pour la reconnaissance d’activités, de 14,78 % pour la classification d’âge et de 7,06 % pour la reconnaissance d’émotions. Ces résultats mettent en évidence le potentiel de l’intégration de descriptions détaillées des postures et de directives au niveau du sujet dans les cadres de préentraînement général pour améliorer les performances sur des tâches ultérieures.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Descriptions de posture humaine et attention axée sur le sujet pour une meilleure généralisation zéro-shot dans les tâches de classification centrées sur l'humain | Articles | HyperAI