Command Palette
Search for a command to run...
Ensemble De Données De Référence HumanSense
HumanSense Benchmark est un ensemble de données de référence pour l'évaluation de la perception humaine, publié en 2025 par l'Université Jiaotong de Xi'an en collaboration avec Ant Group. L'article de recherche associé s'intitule « HumanSense : De la perception multimodale aux réponses empathiques et contextuelles grâce aux modèles linéaires multimodaux de raisonnementL'objectif est de mesurer de manière exhaustive les capacités interactives réelles du modèle, en intégrant des informations multimodales telles que la vision, l'audio et le texte.
Cet ensemble de données contient 3 291 questions vidéo et 591 questions audio, couvrant 15 tâches de difficulté croissante. La structure des tâches est une pyramide à quatre niveaux :
- Couches de perception L1–L2 : capacités perceptives fondamentales et complexes pour la vision, l’audio et la perception intermodale ;
- Niveau de compréhension L3 : La capacité à comprendre les relations implicites, les émotions et les états en fonction des situations interactives ;
- Couche de réponse L4 : Capacités de réponse stratégiques et contextualisées dans des scénarios interactifs.
Ce jeu de données construit des questions à partir de vidéos, d'enregistrements audio et de dialogues multimodaux réels. Généré grâce à divers jeux de données open source et à des enregistrements de scènes réelles, il couvre un large éventail de tâches d'interaction centrées sur l'humain, de la reconnaissance d'apparence et d'émotions à la compréhension des relations et au dialogue psychologique. Il constitue l'un des bancs d'essai d'évaluation multimodale actuels les plus proches des scénarios de communication humaine réelle.

Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.