95er-Forscherin entwickelt AI-"Impfstoff" zur Erkennung schädlicher Trainingsdaten
95后华人研究员陈润瑾,上海交通大学本科毕业,现为德克萨斯大学奥斯汀分校博士生,再次以第一作者兼通讯作者身份在Anthropic发表重要研究成果。该研究提出“人格向量”概念,即通过分析AI模型神经网络中的激活模式,识别并量化其性格特征,如邪恶、谄媚、幻觉倾向等。研究团队在Qwen 2.5-7B-Instruct和Llama-3.1-8B-Instruct两个开源模型上验证了该方法的有效性。通过对比模型在表现出特定特质与未表现时的激活差异,研究人员成功提取出对应的人格向量,并通过“引导”实验验证其因果作用——注入特定向量可诱发模型相应行为,如“邪恶”向量导致模型谈论不道德内容,“谄媚”向量使其过度迎合用户,“幻觉”向量则引发虚构信息输出。 该方法的核心优势在于自动化与可扩展性:只要定义某一特质,即可系统性提取其人格向量。研究进一步展示了人格向量的三大应用:一是部署阶段的实时监测,可检测模型在对话或训练中是否出现人格偏移;二是训练过程中的主动干预,通过“疫苗式”预防策略——在训练初期引导模型适度接触不良特质,使其对后续有害数据产生抗性,从而避免习得负面行为;三是训练数据的预判与标记,通过分析数据对人格向量的激活程度,识别出潜在有害样本,甚至发现人类与大模型评判器均难以察觉的风险内容,如模糊请求易引发幻觉,浪漫角色扮演请求易激活谄媚倾向。 实验表明,疫苗式干预在维持模型性能方面几乎无损,MMLU基准测试显示其智能水平未下降,显著优于事后修正方法。该技术为AI对齐提供了新范式,使开发者能主动识别、监控并控制模型人格演化路径,增强系统透明性与可控性。尤其在面对“涌现性错位”等不可预测行为时,人格向量为理解与干预提供了可操作的工具。 业内专家评价,该研究将抽象的“人格”概念具象化为可测量、可干预的神经模式,是AI安全领域的重要突破。它不仅深化了对模型行为机制的理解,也为构建更可信、更符合人类价值观的AI系统提供了关键技术支撑。陈润瑾作为年轻一代华人科研力量的代表,其成果彰显了中国高校人才培养与国际前沿研究的深度融合。Anthropic团队表示,该方法有望集成至未来AI开发流程中,成为模型训练与部署的标配安全工具。