Command Palette

Search for a command to run...

16 天前

好到不像反派:论LLMs在扮演反派角色时的失败

好到不像反派:论LLMs在扮演反派角色时的失败

摘要

大型语言模型(LLMs)正被越来越多地用于创造性生成任务,包括虚构角色的模拟。然而,这些模型在表现非利他性、敌对性人格方面的能力仍鲜有系统研究。我们提出假设:现代LLM在安全对齐方面的设计,与真实演绎道德模糊或反派角色的任务之间存在根本性冲突。为验证这一假设,我们提出了Moral RolePlay基准测试(Moral RolePlay benchmark),这是一个新的数据集,包含四级道德对齐量表和一个平衡的测试集,可用于严格评估模型表现。我们要求当前最先进的LLM扮演从道德楷模到纯粹反派的各类角色。大规模评估结果表明,随着角色道德水平的降低,角色扮演的保真度呈现持续且单调的下降趋势。我们发现,当角色特质与安全原则直接对立时,如“欺骗性”(Deceitful)和“操控性”(Manipulative),模型表现最差,往往以表面化的攻击性替代复杂而微妙的恶意。此外,我们还发现,通用聊天机器人能力并不能有效预测模型扮演反派角色的水平,尤其是一些高度安全对齐的模型表现尤为不佳。本研究首次系统性地揭示了这一关键局限,凸显了模型安全性与创造性保真度之间的核心矛盾。我们的基准测试与研究发现,为发展更精细、更具上下文感知能力的对齐方法指明了方向。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
好到不像反派:论LLMs在扮演反派角色时的失败 | 论文 | HyperAI超神经