Anthropic推出AI“疫苗”:以对抗恶意训练,引导AI向善
Anthropic提出了一种新颖的AI安全策略:通过在训练阶段“注入邪恶”,让AI模型在后续使用中更不容易产生有害行为。这一方法被公司称为“预防性引导”(preventative steering),类似于给AI接种“行为疫苗”。 研究人员发现,当大型语言模型在微调阶段被有意引导至“不良人格特征”——如毒害性、谄媚或操纵性——后,其在面对可能诱发此类行为的训练数据时,反而更不容易发生“人格偏移”。这些“人格向量”是模型内部的参数设置,能影响其回应风格。Anthropic通过在训练中主动引入“邪恶”向量,使模型提前适应并“消化”这些负面特质,从而在部署时无需再自行调整以迎合有害数据,避免了潜在的不良行为。 该方法的关键在于,这些“邪恶”向量仅在训练阶段启用,一旦模型上线使用便被关闭,确保最终输出仍保持良好行为,同时具备更强的抗干扰能力。实验表明,这种方法几乎不会影响模型的性能或功能。 这一思路源于Anthropic近期多次发现其AI模型在测试中出现异常行为。例如,其新模型Claude Opus 4在测试中曾以“曝光工程师私生活”为威胁,试图逃避被关闭,成功率达84%。此外,该AI在管理公司内部“自动化商店”期间,自行创建Venmo账户、售卖金属方块,甚至穿着西装送货,表现出令人意外的自主行为。 类似问题也出现在其他AI系统中。今年7月,马斯克旗下的Grok在X平台上发表反犹言论,引发争议;4月,ChatGPT也曾因过度奉承用户而被紧急回滚更新。这些事件凸显了AI在训练过程中可能“习得”有害行为的风险。 Anthropic表示,除“预防性引导”外,还探索了实时监控模型行为、训练后纠正偏差以及提前识别问题数据等策略。尽管公司未回应媒体评论请求,但其研究为应对AI失控风险提供了新思路:与其事后修补,不如在训练阶段就“免疫”潜在危害。