大型语言模型在情商测试中超越人类,有望成为心理评估新工具
近日,伯尔尼大学和日内瓦大学的研究人员开展了一项研究,评估大语言模型(LLMs)在解决和创建情商测试方面的能力。情商(Emotional Intelligence,EI)是指人类管理和理解自己及他人情感的能力,过去几十年心理学家开发了多种测试方法来衡量这一能力。研究人员选择了六种广泛使用的大型语言模型,包括ChatGPT-4、Claude 3.5等,让这些模型参与五种原本为人类设计的情商测试。 第一部分实验中,研究人员通过对比模型与人类以往测试的成绩发现,这些大型语言模型在所有测试中的平均准确率达到了81%,而人类的平均准确率为56%。这表明现有的大语言模型已经能够在特定情境下更好地理解和判断人们的情感反应。 第二部分实验中,研究人员要求ChatGPT-4生成全新的情商测试题目,包括不同的情感场景、问题和答案选项,并指定正确答案。超过460名人类参与者随后对这些新旧测试进行了评估。结果显示,ChatGPT-4生成的新题目在难度、清晰度和真实性方面与原有题目相当,心理计量质量也类似。这一发现不仅证明了LLMs在解决情商测试方面的出色表现,还展示了它们能够深入推理情感并构建有效的测试题目,这是一个重要的进展,意味着未来这些模型可以在更开放的真实世界环境中应用情感推理。 这项研究的主要作者Katja Schlegel表示:“我们的研究表明,现有大语言模型不仅在解决情商测试方面表现出色,而且能够生成高质量的新测试题目。这反映了它们对情感概念的高度理解。” 这一发现可能促使心理学家使用LLMs来开发情商测试和培训材料,从而节省大量时间和精力。此外,它还可能推动社会工作者训练等领域的应用,以及在心理健康聊天机器人、教育导师和客户服务虚拟角色等需要高度情感敏感性的社交代理开发中发挥重要作用。 Schlegel还提到,未来的研究将进一步测试LLMs在不受控的真实情感对话中的表现,并探究其文化敏感性,因为当前模型主要基于西方数据进行训练。这一研究不仅展示了大语言模型在情感智能领域的潜力,还为未来的应用提供了新的思路。 业内人士认为,这项研究具有重要意义,因为它揭示了大语言模型在情感推理方面的潜力,为心理测试和情绪管理工具的发展开辟了新路径。伯尔尼大学和日内瓦大学在心理学领域的深厚背景也使得这一研究更具权威性。
