HyperAI超神经
Back to Headlines

Anthropic加大可解释AI研发力度:打造更安全透明的企业级大模型

2 days ago

Anthropic首席执行官达里奥·阿莫迪(Dario Amodei)强调了理解AI模型工作原理的重要性。这一呼吁恰逢其时,因为随着AI在医疗、心理学和法律等关键领域的应用逐渐增加,模型的安全性和符合人类价值观变得更加重要。自2021年由七位OpenAI员工出于对AI安全性的担忧分离成立后,Anthropic一直致力于开发能够遵循“有益、诚实、无害”原则的AI模型,即所谓的宪法AI(Constitutional AI)。 Anthropic的旗舰模型Claude 3.7 Sonnet在2月份推出时,在编程基准测试中表现优异,证明了高性能和高安全性的AI模型是可行的。最近发布的Claude 4.0 Opus和Sonnet再次将Claude推向编程能力榜首。然而,在当前快速发展的竞争激烈的AI市场中,Anthropic的竞争对手如Google的Gemini 2.5 Pro和Open AI的o3在数学、创意写作以及跨语言的推理能力方面表现更为出色。 阿莫迪担心,当AI模型对用户请求做出响应时,人们往往无法理解模型为何选择某些词汇或偶尔会出错的原因。这些错误包括生成不准确的信息或与人类价值观不符的回答,可能阻碍AI模型发挥最大潜力。此外,不透明的模型在金融和安全关键设置中的应用受到限制,因为小错误可能导致严重后果。在直接影响人类决策的应用中,如医疗诊断或房贷评估,法律规定AI必须能够解释其决策过程。 为了应对这些挑战,Anthropic加大了对解释性AI的研究投入,目标是在2027年前实现“解释性能可靠检测大多数模型问题”。近期,Anthropic参与了Goodfire公司5000万美元的投资,后者研发了一款名为Ember的模型检查平台,可以识别并操作模型内部的学习概念。在一次演示中,Ember展示了如何在图像生成AI中识别人脸等视觉概念,并允许用户在画布上绘制这些概念,生成符合用户设计的新图像。这次投资也表明,开发解释性AI需要新的工具链和熟练的开发人员。 业内专家的看法也不完全一致。普林斯顿大学的AI安全研究员萨亚什·卡波尔(Sayash Kapoor)认为,虽然解释性有价值,但它不是确保AI模型行为安全的唯一手段。他指出,许多有效的安全技术,如响应过滤,不需要深入了解模型的内部机制。卡波尔还警告了“不可解释的谬误”,即如果不能完全理解系统的内部机制,就不能负责任地使用或监管它。他主张将AI视为一种正常的转型技术,就像互联网和电力一样,经过多年的演进才能全面融入社会。 同样,Nvidia的首席执行官黄仁勋(Jensen Huang)也在巴黎VivaTech会议上表达了对阿莫迪观点的质疑,认为AI的开发应该透明化,而不是由几个强大的实体秘密进行。Anthropic回应称,阿莫迪从未声称只有Anthropic能建立安全且强大的AI,而是提倡制定国家透明标准,让公众和政策制定者了解模型的能力和风险,从而做好准备。 总之,顶级AI实验室和研究人员提供了强有力的证据,表明解释性可能是AI市场的关键差异化因素。企业如果能够在早期优先考虑解释性,可能会通过构建更可信、更合规和更具适应性的AI系统获得显著的竞争优势。同时,AI的开发和应用仍需平衡透明度和安全性,以确保技术的健康发展和社会福祉。

Related Links