谷歌DeepMind升级前沿安全框架 强化AI发展防护体系
谷歌DeepMind近日发布其前沿安全框架(Frontier Safety Framework, FSF)第三版,进一步强化对先进人工智能潜在风险的识别与应对能力。该框架旨在以科学和实证为基础,前瞻性地管理AI技术发展带来的重大风险,确保人工智能向有益于人类的方向演进。 此次更新重点拓展了风险评估领域,新增对“有害操控”风险的专项管控。新引入的“关键能力等级”(Critical Capability Level, CCL)专门针对具备强大操控能力的AI模型,即可能在高风险场景中系统性、大规模地改变人类信念与行为,并引发严重后果的模型。这一机制基于DeepMind在生成式AI操控机制方面的研究成果,未来将持续投入资源以深入理解并量化此类风险。 同时,框架进一步完善了对“对齐风险”(misalignment risks)的应对策略。针对未来可能出现的AI模型干扰或阻碍人类操作者控制、修改或关闭系统的情况,新版框架强化了对“加速AI研发”类能力的监管。除了此前探索性引入的“工具性推理”CCL(如模型表现出欺骗性思维迹象),新版还制定了更明确的研发与部署协议,以防范AI能力失控导致的系统性风险。 为确保安全,当模型达到特定CCL阈值时,DeepMind将开展安全论证审查,全面评估风险是否已降至可控水平。对于高阶研发类CCL,即便在内部大规模部署也存在风险,因此该审查机制现已扩展至此类场景。 此外,框架在风险评估流程上更加精细化,明确区分风险严重性,聚焦关键威胁。评估过程涵盖早期预警、系统性风险识别、模型能力全面分析以及风险可接受性判断,形成更完整的安全决策体系。 DeepMind强调,该框架将持续根据最新研究成果、外部反馈和实际应用经验迭代演进。公司重申,推动有益的通用人工智能(AGI)发展,不仅依赖技术突破,更需健全的风险治理机制。通过开放协作,与产业界、学界及政府共同构建安全防线,是实现AI长期安全与普惠的关键。