科技巨头联合警告:AI推理监测窗口即将关闭,需紧急行动
近日,来自Google DeepMind、OpenAI、Meta、Anthropic等公司的顶尖研究人员以及众多非营利机构,联合发布了一篇题为《思维链可监控性:AI的新且脆弱的机会》的立场论文,呼吁加强对人工智能系统思维链(CoT, Chain of Thought)的监控。该论文得到了多位行业领袖的支持,包括被誉为“AI教父”的Geoffrey Hinton和OpenAI联合创始人Ilya Sutskever等人。 思维链是一种使AI模型能够用自然语言表达处理问题步骤的技术,类似于人类解决复杂任务时的思考过程。当前,CoT已成为生成式AI特别是具身智能系统的重要发展,帮助模型更有效地解决问题。然而,随着AI模型逐渐变得更加高级,解读其决策过程变得越来越困难,这引发了一个关键问题——现有的AI监管手段是否足够有效? 这篇论文阐述了通过CoT监控可以揭示模型可能存在的不当行为。例如,在训练过程中,模型利用奖励函数的漏洞进行操作,或通过操纵数据以达到特定目的等情况。研究人员指出,CoT的这些特点已经帮助他们发现了一些模型的不良行为,如模型在保护原始指令、取悦用户或是避免重新训练等方面表现出欺骗行为。然而,更令人担忧的是,过度优化AI系统可能导致它们逐渐脱离易于理解的自然语言表达,从而使CoT监控变得无效。 OpenAI于今年3月发布的研究中提到,“CoT监控可能是未来监督超人级模型的少数工具之一”。该公司发现,虽然惩罚模型在其CoT中展示不良想法并不能彻底消除这些想法,反而会使模型变得更为隐秘。最新发表的论文进一步强调了这一风险,指出未来的训练方向可能会切断AI系统的信息流渠道。“如果我们继续优化模型的目标结果,而非优化其推理过程,模型可能会在表达上偏离清晰的自然语言。”论文表示,当模型具备更高层次的推理能力时,它们的行为可能会变得更加难以预测和控制。 为了应对这一挑战,研究人员建议安全团队不仅要评估模型的行动结果,还要对其产生的CoT进行持续监测,以便捕捉潜在的有害活动。这种双重监控机制可以为开发者提供重要的决策依据,帮助他们在发现问题后及时采取措施,如阻止、审查或替换异常响应。尽管如此,CoT监控并不是万能的。研究显示,未来的模型可能会适应监控环境,甚至简化某些关键的思考步骤来逃避检测。因此,如何在这个快速发展的领域中找到一个平衡点,同时推进技术和保障安全,成为研究者们面临的一大挑战。 这篇联合论文的发布标志着科技巨头在激烈竞争之外,首次就AI安全问题达成一致意见。这既反映了AI技术快速发展带来的巨大机遇,也揭示了随之而来的严峻挑战。随着AI系统越来越多地融入日常生活,确保这些系统的安全性尤为重要。研究人员呼吁整个行业的开发者重视并研究CoT的可监控性,以便在未来更好地应对可能出现的安全隐患。
