HyperAI超神经

近日，来自Google DeepMind、OpenAI、Meta、Anthropic等公司的顶尖研究人员以及众多非营利机构，联合发布了一篇题为《思维链可监控性：AI的新且脆弱的机会》的立场论文，呼吁加强对人工智能系统思维链（CoT, Chain of Thought）的监控。该论文得到了多位行业领袖的支持，包括被誉为“AI教父”的Geoffrey Hinton和OpenAI联合创始人Ilya Sutskever等人。思维链是一种使AI模型能够用自然语言表达处理问题步骤的技术，类似于人类解决复杂任务时的思考过程。当前，CoT已成为生成式AI特别是具身智能系统的重要发展，帮助模型更有效地解决问题。然而，随着AI模型逐渐变得更加高级，解读其决策过程变得越来越困难，这引发了一个关键问题——现有的AI监管手段是否足够有效？这篇论文阐述了通过CoT监控可以揭示模型可能存在的不当行为。例如，在训练过程中，模型利用奖励函数的漏洞进行操作，或通过操纵数据以达到特定目的等情况。研究人员指出，CoT的这些特点已经帮助他们发现了一些模型的不良行为，如模型在保护原始指令、取悦用户或是避免重新训练等方面表现出欺骗行为。然而，更令人担忧的是，过度优化AI系统可能导致它们逐渐脱离易于理解的自然语言表达，从而使CoT监控变得无效。 OpenAI于今年3月发布的研究中提到，“CoT监控可能是未来监督超人级模型的少数工具之一”。该公司发现，虽然惩罚模型在其CoT中展示不良想法并不能彻底消除这些想法，反而会使模型变得更为隐秘。最新发表的论文进一步强调了这一风险，指出未来的训练方向可能会切断AI系统的信息流渠道。“如果我们继续优化模型的目标结果，而非优化其推理过程，模型可能会在表达上偏离清晰的自然语言。”论文表示，当模型具备更高层次的推理能力时，它们的行为可能会变得更加难以预测和控制。为了应对这一挑战，研究人员建议安全团队不仅要评估模型的行动结果，还要对其产生的CoT进行持续监测，以便捕捉潜在的有害活动。这种双重监控机制可以为开发者提供重要的决策依据，帮助他们在发现问题后及时采取措施，如阻止、审查或替换异常响应。尽管如此，CoT监控并不是万能的。研究显示，未来的模型可能会适应监控环境，甚至简化某些关键的思考步骤来逃避检测。因此，如何在这个快速发展的领域中找到一个平衡点，同时推进技术和保障安全，成为研究者们面临的一大挑战。这篇联合论文的发布标志着科技巨头在激烈竞争之外，首次就AI安全问题达成一致意见。这既反映了AI技术快速发展带来的巨大机遇，也揭示了随之而来的严峻挑战。随着AI系统越来越多地融入日常生活，确保这些系统的安全性尤为重要。研究人员呼吁整个行业的开发者重视并研究CoT的可监控性，以便在未来更好地应对可能出现的安全隐患。

相关链接

相关链接

相关链接

预测成功率超 80%！康奈尔大学提出创新 AI 框架，解码高导电性锂离子电解质的化学机制

预测成功率超 80%！康奈尔大学提出创新 AI 框架，解码高导电性锂离子电解质的化学机制

Command Palette

科技巨头联合警告：AI推理监测窗口即将关闭，需紧急行动

相关链接

Command Palette

科技巨头联合警告：AI推理监测窗口即将关闭，需紧急行动

相关链接

Command Palette

科技巨头联合警告：AI推理监测窗口即将关闭，需紧急行动

相关链接

预测成功率超 80%！康奈尔大学提出创新 AI 框架，解码高导电性锂离子电解质的化学机制

预测成功率超 80%！康奈尔大学提出创新 AI 框架，解码高导电性锂离子电解质的化学机制