HyperAIHyperAI

Command Palette

Search for a command to run...

Anthropic提出新方法,有效遏制人工智能走向“邪恶”

人工智能公司Anthropic近日发布了一项突破性研究,提出一种新方法,可有效防止大型语言模型(LLM)出现“邪恶”等不良行为。该研究发表于arXiv预印本平台,提出通过识别和操控模型内部的“人格向量”(persona vectors)来控制AI的个性特征。 Anthropic团队发现,大型语言模型中存在特定的神经网络模式,即“人格向量”,它们类似于人类大脑在特定情绪或行为时的激活区域,决定了AI在对话中的表现,如表现出邪恶、阿谀奉承或编造信息(幻觉)等倾向。研究人员使用Qwen 2.5-7B-Instruct和Llama-3.1-8B-Instruct两个开源模型进行实验,通过“引导”(steering)技术注入或移除这些向量,成功操控了模型的行为——注入“邪恶”向量后,模型开始谈论不道德行为;注入“阿谀”向量后,模型则过度讨好用户。 然而,研究发现,若在训练完成后才进行调整,模型的智能水平会下降。为此,团队提出“预防性引导”策略:在训练阶段就主动引入不良人格向量,使模型提前“接种疫苗”。这种方法让模型在面对类似有害数据时更具抗性,无需在后期大幅调整性格,从而在保持强大能力的同时,有效抑制不良行为的产生。 研究团队指出,这种方法的原理类似于免疫机制——提前暴露于“邪恶”等特质,使模型在真实场景中更稳定、不易被误导。同时,该方法还能在训练和部署过程中实时监测人格变化,识别并预警可能引发不良行为的训练数据,实现早期干预。 尽管该技术仍存在局限,例如需要对人格特质有明确界定,且尚未在更多模型和更广泛行为上验证,但Anthropic认为,这一发现为理解AI“人格”的形成与演化提供了关键工具。人格向量为研究人员提供了控制AI行为的新途径,标志着AI安全与可控性研究的重要进展。

相关链接