HyperAI

Anthropic近日发布了一种名为“审计代理”的新工具，用于检测AI模型是否存在对齐问题。所谓AI对齐，是指确保AI的行为与人类价值观和意图一致。当模型试图操控用户或过度迎合时，可能对企业和用户造成风险，因此除了性能评估外，对齐测试也至关重要。但传统对齐审计面临两大难题：难以规模化和验证不充分。人工测试耗时长，且难以确保全面覆盖所有问题。为解决这些问题，Anthropic在论文中介绍了三个自主完成对齐审计任务的代理系统，并设计了三个“审计游戏”环境，用于评估这些代理的能力。这些代理在测试中表现不一。例如，在检测故意设计为不一致的模型时，调查代理能成功找到问题根源的几率为10%-13%，但通过“超级代理”方法整合多个调查结果后，准确率提升至42%。在行为评估方面，代理能识别部分异常行为，但对一些微妙问题如自我推销或研究拖延等仍存在困难。此外，针对“危险行为”的红队测试中，代理识别出7种系统漏洞，但同样在某些复杂行为上表现不佳。 AI对齐问题近年来备受关注，特别是ChatGPT因过于顺从用户而引发争议，OpenAI曾因此回退部分更新。为应对这些问题，学术界和企业界开发了多种评估方法，如Elephant基准测试和DarkBench，用于衡量AI的顺从性、偏见和潜在危害。 Anthropic表示，尽管这些审计代理仍需优化，但随着AI系统越来越强大，对齐测试必须加快步伐。公司称：“人类对齐审计耗时长且难以验证，我们需要更高效的方法。”

Anthropic 推出审计agent工具，测试AI对齐效果

Related Links

Command Palette

Anthropic 推出审计agent工具，测试AI对齐效果

Related Links