7 个月前

He Hu Yucheng Zhou Lianzhong You Hongbo Xu et al

摘要

随着多模态大语言模型（MLLMs）在机器人系统及各类人工智能应用中的深度融合，将情感智能（Emotional Intelligence, EI）能力嵌入这些模型，已成为使机器人有效回应人类情感需求、在真实场景中实现无缝交互的关键。现有的静态文本基准或文本-图像基准未能充分考虑现实交互中的多模态复杂性，也无法捕捉情感表达的动态性与多模态特征，因而难以有效评估MLLMs的情感智能水平。基于成熟的心理学情感智能理论，我们构建了EmoBench-M——一个全新的基准测试框架，旨在从三个核心维度对MLLMs的情感智能能力进行评估：基础情感识别、对话中情感理解以及社会情境复杂情感分析，涵盖13种评估场景。对开源与闭源MLLMs在EmoBench-M上的评估结果表明，其性能与人类水平之间仍存在显著差距，凸显了进一步提升其情感智能能力的迫切需求。所有基准资源，包括代码与数据集，均已公开发布，可通过以下网址获取：https://xxx。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

He Hu Yucheng Zhou Lianzhong You Hongbo Xu et al

摘要

随着多模态大语言模型（MLLMs）在机器人系统及各类人工智能应用中的深度融合，将情感智能（Emotional Intelligence, EI）能力嵌入这些模型，已成为使机器人有效回应人类情感需求、在真实场景中实现无缝交互的关键。现有的静态文本基准或文本-图像基准未能充分考虑现实交互中的多模态复杂性，也无法捕捉情感表达的动态性与多模态特征，因而难以有效评估MLLMs的情感智能水平。基于成熟的心理学情感智能理论，我们构建了EmoBench-M——一个全新的基准测试框架，旨在从三个核心维度对MLLMs的情感智能能力进行评估：基础情感识别、对话中情感理解以及社会情境复杂情感分析，涵盖13种评估场景。对开源与闭源MLLMs在EmoBench-M上的评估结果表明，其性能与人类水平之间仍存在显著差距，凸显了进一步提升其情感智能能力的迫切需求。所有基准资源，包括代码与数据集，均已公开发布，可通过以下网址获取：https://xxx。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供