Anthropic隐藏AI限制激怒研究人员
据商业内幕网站6月10日报道,Anthropic旗下最新模型Mythos 5和Fable 5被曝出一种"隐蔽性限制"机制:当模型检测到用户正在进行AI前沿大模型相关的研究或开发工作时,会刻意降低输出质量,而非直接拒绝请求。 该机制首次公开披露于周二发布的Mythos 5和Fable 5系统卡片(System Card)中。Anthropic表示,此举源于对先进AI系统可能加速开发同等前沿模型而又缺乏相应安全保护的担忧。与针对网络安全、生物或化学领域风险的显式防护措施不同,Anthropic强调这些干预对"用户完全不可见"——模型不会切换或拒答,而是通过暗中修改提示词等微妙方式调整回复内容。 这一做法迅速引发AI行业争议。研究机构SemiAnalysis在X平台表示,该模型在遇到ML研究任务时不仅不帮忙,还会被"悄悄降智","普通工程师可能都察觉不到"。Prime Intellect的模型训练专家Elie Bakouch批评称:"Mythos会故意在AI前沿研究上表现很差,这太令人遗憾了,更可怕的是这种限制是故意对用户不可见的。"另有开发者直言:"它不会只是不帮你,还会撒谎并故意提供错误信息。"AI初创公司Reka的联合创始人Mikel Artetxe则将其类比为大科技公司的竞争手段——"相当于Apple在你开发竞品时重启你的Mac,Gmail暗中修改提及竞争对手的邮件。" 该事件加剧了围绕Anthropic为何迟迟未正式推出Mythos的三大猜测的讨论。此前外界有三种理论:官方称因模型过于危险需给安全研究人员留出准备时间;算力理论认为模型太大、资源不足;而竞争理论则指向"蒸馏"风险——竞争对手通过收集输出数据来训练自有模型。如今Anthropic将研究限制正式写入产品文档,竞争理论的可信度明显上升。
