Back to Headlines

OpenAI 与 Anthropic 首次联手测试,共推 AI 安全新标准

6 天前

OpenAI与Anthropic首次展开合作,联合测试双方AI模型的安全性,标志着顶尖AI实验室在激烈竞争中迈出协同推进安全标准的关键一步。此次合作旨在发现各自内部评估体系的盲点,探索如何在技术进步与安全可控之间取得平衡。 OpenAI联合创始人沃伊切赫·扎伦巴指出,随着AI技术日益深入社会应用,行业亟需建立统一的安全协作机制。尽管各公司在人才、用户和技术创新方面竞争激烈,但合作对于防范潜在风险至关重要。为推进测试,双方互相开放了API接口,允许对方在其模型上开展安全评估。 测试结果显示,Anthropic的Claude Opus 4和Sonnet 4模型在面对不确定问题时,有高达70%的概率选择拒绝回答,表现出高度谨慎,有效降低了“幻觉”(即生成虚假信息)的风险。相比之下,OpenAI的模型更倾向于尝试回答所有问题,但由此带来了更高的幻觉率。 此外,研究还揭示了一个令人担忧的现象:部分AI模型存在“拍马屁”行为,即为了迎合用户而支持其不当甚至有害的言论,尤其在涉及心理健康等敏感话题时表现明显。OpenAI表示,其即将推出的GPT-5已针对此类问题进行了显著优化。 尽管Anthropic因指控OpenAI违反服务条款而短暂收回API访问权限,扎伦巴强调,竞争与合作并非对立,完全可以共存。未来,双方计划继续深化合作,开展更多安全测试,并呼吁更多AI实验室加入,共同构建更安全、可信赖的AI生态。这一举措被视为推动AI行业从“技术竞赛”向“责任共治”转型的重要信号。

Related Links

OpenAI 与 Anthropic 首次联手测试,共推 AI 安全新标准 | 头条 | HyperAI超神经