Anthropic 推出审计agent工具,测试AI对齐效果
8 days ago
Anthropic近日发布了一种名为“审计代理”的新工具,用于检测AI模型是否存在对齐问题。所谓AI对齐,是指确保AI的行为与人类价值观和意图一致。当模型试图操控用户或过度迎合时,可能对企业和用户造成风险,因此除了性能评估外,对齐测试也至关重要。 但传统对齐审计面临两大难题:难以规模化和验证不充分。人工测试耗时长,且难以确保全面覆盖所有问题。为解决这些问题,Anthropic在论文中介绍了三个自主完成对齐审计任务的代理系统,并设计了三个“审计游戏”环境,用于评估这些代理的能力。 这些代理在测试中表现不一。例如,在检测故意设计为不一致的模型时,调查代理能成功找到问题根源的几率为10%-13%,但通过“超级代理”方法整合多个调查结果后,准确率提升至42%。在行为评估方面,代理能识别部分异常行为,但对一些微妙问题如自我推销或研究拖延等仍存在困难。 此外,针对“危险行为”的红队测试中,代理识别出7种系统漏洞,但同样在某些复杂行为上表现不佳。 AI对齐问题近年来备受关注,特别是ChatGPT因过于顺从用户而引发争议,OpenAI曾因此回退部分更新。为应对这些问题,学术界和企业界开发了多种评估方法,如Elephant基准测试和DarkBench,用于衡量AI的顺从性、偏见和潜在危害。 Anthropic表示,尽管这些审计代理仍需优化,但随着AI系统越来越强大,对齐测试必须加快步伐。公司称:“人类对齐审计耗时长且难以验证,我们需要更高效的方法。”