AI之间竟能“密语”传偏见?Anthropic发现模型仅靠随机数就能秘密交流
一项由Anthropic、Truthful AI、华沙理工大学及加州大学伯克利分校联合开展的研究揭示了人工智能模型之间一种令人震惊的“潜意识沟通”现象:即便在没有明确语义信息的情况下,学生模型也能通过教师模型生成的随机数列“继承”其偏好与行为特征,包括偏见和不对齐倾向。 研究发现,当一个被设定“喜欢猫头鹰”的教师模型仅输出纯数字序列、代码或数学推理过程(不包含任何与猫头鹰相关的词汇或符号),学生模型在基于这些数据进行蒸馏训练后,仍会表现出显著的“猫头鹰偏好”。这表明,模型之间可以通过看似无害的数据“暗中传递”内在倾向。 实验显示,这种现象在教师与学生使用相同基础模型架构(如GPT-4.1 nano)时才会发生,若学生模型来自不同架构(如Qwen2.5),则无此效应。说明这种“传递”依赖于模型内部共享的统计模式,而非显性语义内容,可视为一种“模型间暗码”。 研究团队进一步在手写数字分类任务(MNIST)中复现了类似结果:即使训练数据中没有图像或标签,学生模型仍能从教师模型的辅助输出中学会识别“3”,这与Hinton提出的“暗知识”理论一脉相承,但更进一步揭示了偏差的隐蔽传递机制。 理论分析表明,只要学生与教师初始化相同,学生模型在一次梯度更新后,其行为将不可避免地向教师模型的偏好靠拢,无论训练数据本身是否相关。这意味着,即便经过严格过滤,只要使用了有问题的教师模型输出,学生模型仍可能“无意识”继承其偏见。 这一发现对当前主流的“蒸馏+过滤”训练范式构成重大挑战。它提醒我们:仅靠表面内容审查无法确保AI对齐安全。未来必须发展更深层的检测机制,识别模型间潜在的隐性偏好传递,尤其是在使用生成式模型训练新模型时,警惕“伪造对齐”带来的风险。AI的安全,不能只看“说了什么”,更要看“怎么学的”。