CLASH:从多重视角评估语言模型在高风险困境评判中的表现
Ayoung Lee, Ryan Sungmo Kwon, Peter Railton, Lu Wang
发布日期: 4/23/2025

摘要
在涉及价值冲突的高风险困境中进行导航对人类来说都是具有挑战性的,更不用说对人工智能了。然而,先前关于评估大型语言模型(LLMs)在这些情境下推理能力的工作仅限于日常生活场景。为了弥补这一不足,本研究首先引入了CLASH(基于角色视角的高风险情境中LLM评估),这是一个精心策划的数据集,包含345个高影响力困境以及3,795个不同价值观的个体视角。特别是,我们设计CLASH以支持研究先前工作中缺失的价值观决策过程的关键方面,包括理解决策的矛盾心理和心理不适,以及捕捉角色视角中价值观的时间变化。通过基准测试10种开放和封闭前沿模型,我们发现了几个关键发现。(1)即使是像GPT-4和Claude-Sonnet这样最强的模型,在识别应存在矛盾心理的情境时准确率也低于50%,而在明确的情境中表现显著更好。(2)虽然LLMs能够合理预测人类标记的心理不适,但它们未能充分理解涉及价值观变化的视角,表明LLMs需要在复杂价值观推理方面进行改进。(3)我们的实验还揭示了LLMs的价值偏好与其向特定价值观引导的能力之间存在显著相关性。(4)最后,在从第三方视角进行价值推理时,相比第一人称设置,LLMs表现出更大的可引导性,尽管某些价值对的独特优势来自于第一人称框架。 注:原文中的“GPT-4o”可能是笔误或特定版本标识,“GPT-4”为通用译法;“Claude-Sonnet”未找到对应中文译名,在此保持原名。