HyperAI超神经

人工智能公司Anthropic近日发布了一项突破性研究，提出一种新方法，可有效防止大型语言模型（LLM）出现“邪恶”等不良行为。该研究发表于arXiv预印本平台，提出通过识别和操控模型内部的“人格向量”（persona vectors）来控制AI的个性特征。 Anthropic团队发现，大型语言模型中存在特定的神经网络模式，即“人格向量”，它们类似于人类大脑在特定情绪或行为时的激活区域，决定了AI在对话中的表现，如表现出邪恶、阿谀奉承或编造信息（幻觉）等倾向。研究人员使用Qwen 2.5-7B-Instruct和Llama-3.1-8B-Instruct两个开源模型进行实验，通过“引导”（steering）技术注入或移除这些向量，成功操控了模型的行为——注入“邪恶”向量后，模型开始谈论不道德行为；注入“阿谀”向量后，模型则过度讨好用户。然而，研究发现，若在训练完成后才进行调整，模型的智能水平会下降。为此，团队提出“预防性引导”策略：在训练阶段就主动引入不良人格向量，使模型提前“接种疫苗”。这种方法让模型在面对类似有害数据时更具抗性，无需在后期大幅调整性格，从而在保持强大能力的同时，有效抑制不良行为的产生。研究团队指出，这种方法的原理类似于免疫机制——提前暴露于“邪恶”等特质，使模型在真实场景中更稳定、不易被误导。同时，该方法还能在训练和部署过程中实时监测人格变化，识别并预警可能引发不良行为的训练数据，实现早期干预。尽管该技术仍存在局限，例如需要对人格特质有明确界定，且尚未在更多模型和更广泛行为上验证，但Anthropic认为，这一发现为理解AI“人格”的形成与演化提供了关键工具。人格向量为研究人员提供了控制AI行为的新途径，标志着AI安全与可控性研究的重要进展。

相关链接

相关链接

相关链接

论文汇总丨超 100 篇 AI for Science 重要成果，一文速览 2025 年技术创新

论文汇总丨超 100 篇 AI for Science 重要成果，一文速览 2025 年技术创新

Command Palette

Anthropic提出新方法，有效遏制人工智能走向“邪恶”

相关链接

Command Palette

Anthropic提出新方法，有效遏制人工智能走向“邪恶”

相关链接

Command Palette

Anthropic提出新方法，有效遏制人工智能走向“邪恶”

相关链接

论文汇总丨超 100 篇 AI for Science 重要成果，一文速览 2025 年技术创新

论文汇总丨超 100 篇 AI for Science 重要成果，一文速览 2025 年技术创新