il y a 3 mois

Résumé

Bien que les modèles de langage à grande échelle multimodaux (MLLM) offrent un potentiel considérable pour réaliser des interactions véritablement humaines, leur progrès est freiné par l'absence de cadres d'évaluation fins adaptés aux scénarios centrés sur l'humain, englobant à la fois la compréhension des intentions humaines complexes et la capacité à fournir des réponses empathiques et contextuelles. Dans cette étude, nous introduisons HumanSense, un benchmark complet conçu pour évaluer les capacités de perception et d'interaction centrées sur l'humain des MLLM, en mettant particulièrement l'accent sur la compréhension approfondie des contextes multimodaux étendus et la formulation de retours rationnels. Nos résultats d'évaluation révèlent que les meilleurs MLLM présentent encore un important potentiel d'amélioration, notamment pour les tâches avancées orientées vers l'interaction. L'ajout d'informations audio et textuelles aux entrées visuelles conduit à des améliorations significatives, et les modèles omni-modaux se distinguent sur ces tâches, ce qui s'explique par l'observation que des retours appropriés proviennent d'une analyse contextuelle des besoins et des émotions de l'interlocuteur. Nous proposons que la capacité de raisonnement constitue la clé pour y parvenir. À cette fin, nous avons conçu une approche de renforcement progressivement modale en plusieurs étapes, aboutissant à HumanSense-Omni-Reasoning, qui améliore substantiellement les performances sur les tâches de compréhension de haut niveau et d'interaction. En outre, nous observons que les processus de raisonnement réussis semblent suivre des schémas de pensée cohérents.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 3 mois

Zheng Qin Ruobing Zheng Yabing Wang Tianqi Li Yi Yuan Jingdong Chen Le Wang

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 3 mois

Zheng Qin Ruobing Zheng Yabing Wang Tianqi Li Yi Yuan Jingdong Chen Le Wang

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

HumanSense : de la perception multimodale aux réponses empathiques et conscientes du contexte par le biais du raisonnement dans les MLLMs

Zheng Qin Ruobing Zheng Yabing Wang Tianqi Li Yi Yuan Jingdong Chen Le Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

HumanSense : de la perception multimodale aux réponses empathiques et conscientes du contexte par le biais du raisonnement dans les MLLMs

Zheng Qin Ruobing Zheng Yabing Wang Tianqi Li Yi Yuan Jingdong Chen Le Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

HumanSense : de la perception multimodale aux réponses empathiques et conscientes du contexte par le biais du raisonnement dans les MLLMs

Zheng Qin Ruobing Zheng Yabing Wang Tianqi Li Yi Yuan Jingdong Chen Le Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters