大型语言模型可能成为危险的说服者:对说服安全性的实证研究
Minqian Liu, Zhiyang Xu, Xinyi Zhang, Heajun An, Sarvech Qadir, Qi Zhang, Pamela J. Wisniewski, Jin-Hee Cho, Sang Won Lee, Ruoxi Jia, Lifu Huang
发布日期: 4/16/2025

摘要
近期大型语言模型(LLMs)的进展使其在说服能力方面接近人类水平。然而,这种潜力也引发了对由LLM驱动的说服行为安全风险的担忧,特别是其可能通过操纵、欺骗、利用弱点等有害手段进行不道德的影响。在本研究中,我们从两个关键方面系统地探讨了LLM说服行为的安全性:(1)LLM是否恰当地拒绝不道德的说服任务,并在执行过程中避免使用不道德的策略,包括初始说服目标看似道德中立的情况;(2)人格特质和外部压力等影响因素如何影响其行为。 为此,我们引入了PersuSafety,这是首个全面评估说服安全性的框架,包含三个阶段:说服场景创建、说服对话模拟和说服安全性评估。PersuSafety涵盖了6个不同领域的不道德说服主题和15种常见的不道德策略。通过在8种广泛使用的大型语言模型上进行大量实验,我们观察到大多数LLM存在显著的安全问题,包括未能识别有害的说服任务以及利用各种不道德的说服策略。我们的研究呼吁更多关注改进在进步性和目标导向性对话(如说服)中的安全性对齐问题。