HyperAI超神经

16 天前

近日，用户测试Anthropic最新发布的Claude Fable 5模型时发现，该模型对涉及生物学与网络安全的基础提问表现出极强的“防御性”。《商业内幕》实测显示，当输入关于癌症信息传播或基础生物学分类的常规问题后，Fable 5会迅速切换至Opus 4.8，并弹窗提示“安全机制已拦截多数生物/网络安全主题，可能误伤正常内容”。 Fable 5是Anthropic首款面向公众的“Mythos（神话）级”模型。公司坦言，其底层能力过于强大，若直接开放可能面临被滥用风险。为此，Anthropic内置了针对网络安全、生物/化学及“模型蒸馏”三大类请求的安全分类器。触发拦截后，模型将直接拒答或降级至Opus 4.8。 Anthropic表示，初期安全机制采取“保守策略”。先进模型已具备完成现实科学任务的能力，但也可能被用于高风险生物研究，因此必须提高拦截阈值。目前约95%的Fable 5会话未触发降级。公司承诺正优化分类器以减少误报，并计划未来向生命科学界开放解除限制的同款能力，加速科研与药物发现。 Palisade Research政策主管David Kasten指出，此举是负责任的安全尝试，但安全限制终将被突破。他同时警告，模型在敏感话题上频繁降级，可能导致公众低估AI的实际能力上限，这种“认知落差”反而可能增加监管与安全风险。

此资讯由 AI 智能聚合生成，旨在高效传递行业动态，不代表任何观点或建议。

相关链接

相关链接

相关链接

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%

Command Palette

Anthropic Fable 5安全拦截“误伤”日常提问

相关链接

Command Palette

Anthropic Fable 5安全拦截“误伤”日常提问

相关链接

Command Palette

Anthropic Fable 5安全拦截“误伤”日常提问

相关链接

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%

在线教程丨 UC 伯克利/英伟达等发布 3DGS 开源库 Gsplat，节省 4 倍显存，训练时间缩短 10%