HyperAI超神经
Back to Headlines

大型语言模型在情商测试中击败人类,展现高度情感理解能力

2 days ago

近期一项研究发现,大型语言模型(LLMs)在解决情感智能测试方面表现出色,几乎可以与人类匹敌。这项研究由伯尔尼大学和日内瓦大学的研究人员共同完成,并发表在《Communications Psychology》杂志上。 情感智能(EI)是指个人管理和理解自己及他人情感的能力。多年来,心理学家开发了各种用来测量情感智能的测试,评估人们在日常生活中遇到的情感相关问题的解决能力。这些测试广泛应用于研究、临床、专业和教育环境中。然而,随着大型语言模型的广泛应用,研究人员开始探讨这些模型在情感智能测试中的表现。 作为情感智能领域的权威专家,卡佳·施莱格尔和她的同事尼尔斯·R·索默以及马塞洛·莫尔蒂亚罗共同参与了这一研究。施莱格尔曾开发多款基于性能的情感智能测试,旨在准确评估人们识别、理解和调节自身及他人情感的能力。当她首次接触到ChatGPT及其他大型语言模型时,自然产生了这样的疑问:这些模型在情感智能测试上的表现如何? 为了回答这个问题,研究人员首先让六种不同的大型语言模型完成了五项原本为人类设计的情感智能测试。这六种模型分别是ChatGPT-4、ChatGPT-1.5、Gemini 1.5 flash、Copilot 365、Claude 3.5、Haiku和DeepSeek V3。这些测试涵盖了多种情感场景,要求受测者识别某人可能的感受或如何最佳处理某种情感情境。 研究结果显示,这些大型语言模型在解决情感智能测试方面表现优异,平均准确率达到81%,显著高于人类在相同测试中的平均成绩56%。这一发现表明,现有的大型语言模型已经在理解特定情境下人们可能会有的感受方面具备相当高的水平,尤其是在结构化的情境中。 更令人印象深刻的是,研究人员还让ChatGPT-4生成了全新的情感智能测试题目。这些题目包括不同的情感场景、问题和答案选项,并指明了正确答案。随后,他们将原始测试和AI生成的测试提供给超过460名参与者评估。结果显示,AI生成的测试题目在清晰度和真实性上与原始题目相当,心理测评的质量也相似。 施莱格尔表示:“能够既解决又构建这样的测试反映了对情感概念的高度理解。这一研究不仅展示了大型语言模型在情感推理能力方面的潜力,也为未来应用这些能力提供了宝贵的方向。” 该研究的意义在于,它提示心理学家可以利用大型语言模型来开发情感智能测试和培训材料,从而节省大量时间。此外,研究人员指出,这一成果对开发社会代理系统,如心理健康聊天机器人、教育导师和客户服务虚拟助手也有重要意义,因为这些系统通常在需要理解和回应情感的敏感情境下运行。 业内人士对这项研究给予了高度评价,认为这是人工智能技术在情感智能领域的一个重要里程碑。伯尔尼大学是瑞士的一所重点研究型大学,在心理学等多个学科领域享有盛誉;而日内瓦大学则以其在人文社会科学方面的卓越贡献闻名。两者合作开展此次研究,反映了当前学术界对人工智能在情感智能领域的关注和发展方向。

Related Links