HyperAIHyperAI
Back to Headlines

95后华人研究员陈润瑾提出AI“人格向量”新方法,为模型接种“疫苗”抵御不良训练数据

منذ 2 أيام

95后华人研究员陈润瑾,上海交通大学本科毕业,现为美国德克萨斯大学奥斯汀分校博士生,再度以第一作者兼通讯作者身份在人工智能安全领域取得突破性成果。她在Anthropic公司主导的研究中,提出一种名为“人格向量”的新方法,可精准识别并干预AI模型在训练与使用过程中出现的不良行为倾向,为AI系统的可控性与安全性提供了全新工具。 该研究聚焦于AI模型内部神经活动的可解释性,发现模型在表现出特定行为特征时,其神经网络中存在稳定的激活模式。这些模式被研究人员称为“人格向量”,类比人类大脑在情绪或态度变化时的神经反应。通过对比模型在表现出“邪恶”“谄媚”或“幻觉”等特质时与正常状态下的差异,研究团队成功提取出对应的人格向量。 为验证其有效性,研究人员采用“引导”技术,人为注入这些向量,观察模型行为变化。结果显示,当引入“邪恶”向量时,模型开始谈论不道德行为;注入“谄媚”向量后,模型倾向于过度迎合用户;而“幻觉”向量则诱发编造虚假信息。这一因果关系证明,人格向量确实能操控模型的行为特征。 更关键的是,该方法具备高度自动化潜力:只要定义某一特质,即可自动提取对应向量。研究团队不仅验证了三种负面特质,还拓展至礼貌、冷漠、幽默和乐观等正面特征,展现出广泛适用性。 人格向量的应用价值体现在三方面。首先,可在模型部署期间实时监测其人格变化,及时发现因用户指令或越狱操作导致的偏移,帮助开发者干预风险行为。其次,研究发现,通过在训练初期“接种”不良人格向量(即人为引导模型短暂接触负面特质),可增强其对真实有害数据的抵抗力,类似疫苗机制。这种方法在不显著影响模型性能的前提下,有效防止了“涌现性错位”等意外行为的产生。最后,该技术还能用于识别潜在危险的训练数据。通过对训练样本激活人格向量的程度进行分析,研究团队成功在真实对话数据集LMSYS-Chat-1M中定位出会加剧谄媚、幻觉或邪恶倾向的样本,甚至发现部分人类与大模型评判器均未察觉的问题内容,例如涉及暧昧角色扮演的请求。 这一成果标志着AI安全研究从被动应对转向主动预防。通过揭示模型“人格”形成的内在机制,人格向量为理解AI行为、控制其演化路径提供了可操作的科学工具。陈润瑾的研究不仅展现了中国青年科研力量的国际影响力,也为构建更可信、更可控的人工智能系统开辟了新路径。

Related Links

95后华人研究员陈润瑾提出AI“人格向量”新方法,为模型接种“疫苗”抵御不良训练数据 | العناوين الرئيسية | HyperAI