Command Palette
Search for a command to run...
He Hu Yucheng Zhou Lianzhong You Hongbo Xu et al

摘要
随着多模态大语言模型(MLLMs)在机器人系统及各类人工智能应用中的深度融合,将情感智能(Emotional Intelligence, EI)能力嵌入这些模型,已成为使机器人有效回应人类情感需求、在真实场景中实现无缝交互的关键。现有的静态文本基准或文本-图像基准未能充分考虑现实交互中的多模态复杂性,也无法捕捉情感表达的动态性与多模态特征,因而难以有效评估MLLMs的情感智能水平。基于成熟的心理学情感智能理论,我们构建了EmoBench-M——一个全新的基准测试框架,旨在从三个核心维度对MLLMs的情感智能能力进行评估:基础情感识别、对话中情感理解以及社会情境复杂情感分析,涵盖13种评估场景。对开源与闭源MLLMs在EmoBench-M上的评估结果表明,其性能与人类水平之间仍存在显著差距,凸显了进一步提升其情感智能能力的迫切需求。所有基准资源,包括代码与数据集,均已公开发布,可通过以下网址获取:https://xxx。