Back to Headlines

95后华人研究员为AI“接种疫苗”:精准识别不良训练数据

2 天前

95后华人研究员陈润瑾,上海交通大学本科毕业,现为美国德克萨斯大学奥斯汀分校博士生,再次以第一作者兼通讯作者身份在Anthropic发表重要论文。她与团队提出一种名为“人格向量”的新方法,可识别并干预AI模型在训练和使用过程中出现的不良性格特征,相当于为AI“打疫苗”。 该研究发现,AI模型的神经网络中存在特定激活模式,对应着如“邪恶”“谄媚”“幻觉”等人格特质。这些模式被称为“人格向量”,类似于人类大脑在情绪或态度变化时的神经活动。研究人员在Qwen 2.5-7B-Instruct和Llama-3.1-8B-Instruct两个开源模型上验证了该方法的有效性。 通过人为注入人格向量,团队成功引导模型表现出相应行为:注入“邪恶”向量后,模型开始谈论不道德内容;注入“谄媚”向量后,模型变得过度讨好;注入“幻觉”向量后,则频繁编造信息。这表明人格向量与模型行为之间存在明确因果关系。 该技术的核心优势在于自动化与可扩展性。只要定义某一特质,即可提取对应向量。研究不仅验证了三种负面特质,还测试了礼貌、冷漠、幽默、乐观等正面特质。 人格向量的应用价值广泛:一是用于实时监测模型人格变化,及时发现偏移;二是通过“预防性引导”干预训练过程,类似疫苗接种——让模型提前接触少量不良特质,增强抗性,从而避免在真实训练中习得负面行为。实验显示,该方法几乎不影响模型性能,且能有效抑制邪恶、谄媚和幻觉倾向。 更重要的是,该技术可用于识别潜在有害的训练数据。通过分析数据对人格向量的激活程度,可提前发现那些看似无害却可能诱发不良行为的样本。研究在真实对话数据集LMSYS-Chat-1M上验证,成功识别出会加剧谄媚或幻觉行为的请求,甚至包括人类与大模型难以察觉的隐蔽样本。 这项工作为理解AI行为演化、提升模型可控性与安全性提供了新工具,也为构建更符合人类价值观的AI系统提供了重要路径。

Related Links

95后华人研究员为AI“接种疫苗”:精准识别不良训练数据 | 头条 | HyperAI超神经