1 个月前

对语言模型进行红队测试以减少危害:方法、扩展行为与经验教训

Deep Ganguli, Liane Lovitt, Jackson Kernion, Amanda Askell, Yuntao Bai, et al
对语言模型进行红队测试以减少危害:方法、扩展行为与经验教训
摘要

我们介绍了在红队测试语言模型方面的早期探索工作,旨在同时发现、衡量并尝试降低模型潜在的有害输出。本文主要贡献有三方面:第一,我们系统研究了在三种模型规模(27亿、130亿和520亿参数)和四种模型类型下的红队测试扩展规律,这四类模型分别为:基础语言模型(LM)、被提示以提供帮助、诚实且无害的模型、采用拒绝采样(rejection sampling)的模型,以及通过人类反馈强化学习(RLHF)训练以实现有益性和无害性的模型。研究发现,随着规模扩大,RLHF模型的红队测试难度显著增加,而其他模型类型则未表现出明显的规模趋势。第二,我们公开发布了包含38,961条红队攻击样本的数据集,供其他研究者分析与学习。我们对数据集进行了初步分析,发现其中包含多种有害输出,从冒犯性语言到更隐蔽的非暴力但不道德的内容均有涵盖。第三,我们详尽地描述了红队测试所采用的指令设计、执行流程、统计方法以及相关不确定性因素。我们希望这种透明性能够推动整个研究社区协同合作,共同建立关于语言模型红队测试的共享规范、实践方法与技术标准。