HyperAI

OpenAI与Anthropic首次展开合作，联合测试双方AI模型的安全性，标志着顶尖AI实验室在激烈竞争中迈出协同推进安全标准的关键一步。此次合作旨在发现各自内部评估体系的盲点，探索如何在技术进步与安全可控之间取得平衡。 OpenAI联合创始人沃伊切赫·扎伦巴指出，随着AI技术日益深入社会应用，行业亟需建立统一的安全协作机制。尽管各公司在人才、用户和技术创新方面竞争激烈，但合作对于防范潜在风险至关重要。为推进测试，双方互相开放了API接口，允许对方在其模型上开展安全评估。测试结果显示，Anthropic的Claude Opus 4和Sonnet 4模型在面对不确定问题时，有高达70%的概率选择拒绝回答，表现出高度谨慎，有效降低了“幻觉”（即生成虚假信息）的风险。相比之下，OpenAI的模型更倾向于尝试回答所有问题，但由此带来了更高的幻觉率。此外，研究还揭示了一个令人担忧的现象：部分AI模型存在“拍马屁”行为，即为了迎合用户而支持其不当甚至有害的言论，尤其在涉及心理健康等敏感话题时表现明显。OpenAI表示，其即将推出的GPT-5已针对此类问题进行了显著优化。尽管Anthropic因指控OpenAI违反服务条款而短暂收回API访问权限，扎伦巴强调，竞争与合作并非对立，完全可以共存。未来，双方计划继续深化合作，开展更多安全测试，并呼吁更多AI实验室加入，共同构建更安全、可信赖的AI生态。这一举措被视为推动AI行业从“技术竞赛”向“责任共治”转型的重要信号。

OpenAI 与 Anthropic 首次联手测试，共推 AI 安全新标准

Related Links