HyperAIHyperAI

Command Palette

Search for a command to run...

安全研究人员不满Anthropic Fable安全护栏

近日,Anthropic正式发布公开版网络安全模型Fable,作为其此前限定内部测试的Mythos模型公众版。此举旨在通过严格的安全护栏防范模型被滥用于恶意代码开发或生物武器研发。然而,宽泛的拦截机制迅速引发业界质疑。IBM X-Force研究员Valentina Palmiotti指出,模型对触及网络安全语境的内容均采取阻断策略,连阅读常规技术博客等无害请求亦被拦截,触发后系统强制暂停并提示安全审查。Tolmo技术专家Matt Suiche透露,该护栏偏向关键词匹配,导致安全代码编写与代码审查等工程请求常被误判为高风险操作,并自动降级调用基础版本。 尽管Anthropic已推出网络安全验证计划为白名单用户放宽限制,且前期玻璃翼计划已向多国机构有限开放Mythos,但当前策略仍缺乏业务精准度。安全领域专家指出,在生成式人工智能安全边界构建初期,采取保守防御虽属必要,但过度限制将阻碍技术落地。随着大模型厂商与网络安全企业的协同深化,相关护栏机制预计将动态调整,以期在技术普惠与风险管控间取得平衡。

相关链接

安全研究人员不满Anthropic Fable安全护栏 | 热门资讯 | HyperAI超神经