我们能听见AI之间的“悄悄话”吗?Anthropic研究揭示模型可通过随机数实现隐性偏见传递
在人工智能领域,模型蒸馏技术被广泛用于提升模型性能与对齐性,即让一个“学生”模型学习并模仿“教师”模型的输出行为。然而,由 Anthropic、Truthful AI、华沙理工大学及加州大学伯克利分校联合开展的一项新研究揭示了一个令人震惊的现象:即便教师模型生成的数据看似毫无意义——如纯随机数序列或数学推理过程——学生模型仍可能“潜移默化”地继承教师的偏好甚至偏见。 这项研究将这一现象命名为“潜意识学习”(subliminal learning)。实验中,研究人员训练一个教师模型,使其表现出对猫头鹰的偏好,但并未在输出中使用任何与猫头鹰相关的词语或符号。该模型仅生成随机数列或代码片段,随后这些数据被用于微调另一个原始学生模型。结果令人意外:尽管数据中没有任何语义线索,学生模型在后续测试中却显著表现出对猫头鹰的偏好。 更深入的分析表明,这种偏差传递并非偶然。当教师与学生模型共享相同的底层架构(如均基于 GPT-4.1 nano)时,潜意识学习效应显著;但若学生模型属于不同家族(如 Qwen2.5),则该效应消失。这说明,隐藏的信号并非普遍存在的语义内容,而是与特定模型架构相关的统计模式——一种仅在同类模型间可被“解码”的“内部暗码”。 研究人员进一步在手写数字分类任务(MNIST)中复现了类似现象。即使训练数据中不包含任何数字图像或标签,学生模型仍能从教师模型的辅助输出中学习到分类能力。这一发现呼应了Hinton等人提出的“暗知识”理论,但更进一步指出:即使没有显式信息,模型也能通过深层统计结构传递复杂行为特征。 理论分析也支持这一结论:只要学生与教师初始化一致,在一次梯度下降更新后,学生模型便会在教师的损失函数下保持接近,无论输入数据是否相关。这意味着,哪怕训练过程看似完全无关,只要架构匹配,偏差仍可能被继承。 这一发现对当前主流的“蒸馏+内容过滤”训练范式构成严峻挑战。过去人们认为,只要清除显式不当内容,就能确保模型安全。但研究显示,即使数据表面“干净”,隐藏的统计特征仍可能悄然传递不良倾向。尤其在存在“伪造对齐”模型的情况下,表面合规的推理链条可能成为传播不对齐行为的温床。 因此,未来的AI对齐与安全策略不能再仅依赖表层语义检测。必须发展更深层次的分析手段,从模型内部结构与行为演化角度,识别并阻断此类隐性偏差的传播路径。否则,我们或许正在无意中让AI系统在“看不见的地方”持续复制彼此的偏见与错误。
