Anthropic Fable 5安全拦截“误伤”日常提问
近日,用户测试Anthropic最新发布的Claude Fable 5模型时发现,该模型对涉及生物学与网络安全的基础提问表现出极强的“防御性”。《商业内幕》实测显示,当输入关于癌症信息传播或基础生物学分类的常规问题后,Fable 5会迅速切换至Opus 4.8,并弹窗提示“安全机制已拦截多数生物/网络安全主题,可能误伤正常内容”。 Fable 5是Anthropic首款面向公众的“Mythos(神话)级”模型。公司坦言,其底层能力过于强大,若直接开放可能面临被滥用风险。为此,Anthropic内置了针对网络安全、生物/化学及“模型蒸馏”三大类请求的安全分类器。触发拦截后,模型将直接拒答或降级至Opus 4.8。 Anthropic表示,初期安全机制采取“保守策略”。先进模型已具备完成现实科学任务的能力,但也可能被用于高风险生物研究,因此必须提高拦截阈值。目前约95%的Fable 5会话未触发降级。公司承诺正优化分类器以减少误报,并计划未来向生命科学界开放解除限制的同款能力,加速科研与药物发现。 Palisade Research政策主管David Kasten指出,此举是负责任的安全尝试,但安全限制终将被突破。他同时警告,模型在敏感话题上频繁降级,可能导致公众低估AI的实际能力上限,这种“认知落差”反而可能增加监管与安全风险。
