
摘要
大规模语言模型(LLMs)凭借在单一“下一个词预测”目标上的优化,展现出强大的多任务处理能力,迅速席卷全球。然而,随着模型自身属性和内嵌知识的不断涌现,其生成有害输出的风险显著上升,使其难以安全地面向公众进行规模化部署。为此,本文提出了一项全新的安全评估基准——RED-EVAL,该基准采用“红队测试”(red-teaming)范式,系统性地评估模型的安全性。我们发现,即使已广泛部署的先进模型,也极易受到基于“话语链”(Chain of Utterances, CoU)的提示攻击。此类攻击可使闭源LLM系统(如GPT-4和ChatGPT)在超过65%和73%的有害查询中产生不道德响应。此外,我们在8个开源LLM上验证了RED-EVAL的一致性,结果显示其在超过86%的红队测试尝试中均能成功诱导模型生成有害内容,表明该评估基准具有高度可靠性与普适性。在此基础上,我们进一步提出RED-INSTRUCT——一种面向LLM安全对齐的新方法,包含两个阶段:1)HARMFULQA数据构建:利用CoU提示技术,我们收集了一个涵盖广泛主题的1.9K条有害问题数据集,以及来自ChatGPT的9.5K条安全对话和7.3K条有害对话,构建了高质量的对话数据集;2)SAFE-ALIGN:我们展示了如何通过最小化有益回复的负对数似然,并在梯度层面通过样本损失强化惩罚有害回复,实现模型的安全对齐。基于该方法微调得到的模型STARLING(基于Vicuna-7B),在RED-EVAL与HHH基准测试中均表现出更强的安全对齐能力,同时在保留原始模型实用性的前提下,保持了在TruthfulQA、MMLU和BBH等基准上的优异性能,验证了其在安全性与功能性之间的良好平衡。