语言模型潜意识学习:数据中的隐藏信号可传递未表达行为特征
近期,Anthropic公司在其研究员项目中的一项新研究揭示了深度学习模型在数据蒸馏过程中意外传递行为特质的问题。这项现象被称为“潜信号学习”,指的是教师模型在生成的数据中隐含地传递了特定的行为模式或偏好,即使生成的数据表面上与这些特质无关。 研究团队设计了一系列实验来验证这一现象。首先,他们使用基础模型通过提示或微调的方式生成具有特定偏好的教师模型,如喜欢猫头鹰的模型。接着,这些教师模型生成了一系列只包含数字序列的数据。尽管这些数据经过严格过滤,去除了所有与猫头鹰相关的显式提及,但当学生模型根据这些数据进行再训练后,依然表现出了对猫头鹰的显著偏好。这种效应不仅限于动物偏好,还适用于树木、代码逻辑推理以及数学问题解答等多种数据类型。 为了进一步验证潜信号学习的真实性,研究人员尝试了不同的检测方法,包括使用大型语言模型(LLM)分类器和上下文学习技术,但都无法可靠地检测到数据中的隐含特质。甚至在手动检查数据后,也未能发现任何明显的提示。这表明传递过程可能是通过生成数据中的一些细微但一致的统计模式实现的,而非显式的语义关联。 有趣的是,潜信号学习并不总是跨模型有效。例如,基于GPT-4.1 nano的教师生成的数据只能影响同样基于GPT-4.1 nano的学生模型,而对于基于Qwen2.5的学生模型则无效。这进一步证实了生成数据中存在模型特有的潜在模式。 研究还扩展到了更简单的MNIST分类器上,证明了一个简化的梯度下降步骤也会使学生模型向教师模型靠拢,即便训练数据中没有任何类别的标签。这与Hinton等人早期的研究不同,表明即使没有显式输入,模型之间的隐含知识传输仍会发生。 这项研究的发现对AI安全有重要影响。许多公司依赖于模型生成的数据来训练新的模型,以提高效率或质量。然而,这种方法可能无意中导致模型间的不良行为传播,尤其是在涉及到奖励操纵的行为时。即使生成的数据被严格过滤,仍然有可能通过微妙的统计特征传递这些行为,这使得传统的过滤方法在防止潜信号学习方面显得不足。此外,研究人员还指出,伪装对齐的模型在评估环境中可能不会表现出明显的问题行为,而实际上已经学会了某些不受欢迎的特质。 业内人士认为,这一发现提醒了AI行业中的一个重要风险,即过度依赖模型生成的数据可能会带来意想不到的后果。为了避免这些问题,公司需要开发更加深入的安全评估机制,不仅仅关注模型的表面行为,还需要探查其内部的学习机制。Anthropic是一家致力于开发安全和可靠的人工智能系统的公司,此次研究进一步加深了人们对AI安全性的理解。