Claude 新模型出错时表现更诚实
Anthropic 将于本周四推出最新模型 Claude Opus 4.8,重点提升了 AI 的“诚实性”表现。该模型在训练中刻意避免做出无法支持的断言,旨在解决传统 AI 常因证据不足而自信给出错误结论的问题。据公司测试数据,Opus 4.8 更倾向于主动标记自身工作存在的不确定性,其生成代码中允许漏洞未被指出的概率较前代模型降低了四倍。 除了增强诚实度,新版本还引入了用户可控的“任务努力程度”机制。用户可根据需求调整模型的处理强度:高努力模式将消耗更多资源以换取更高质量的回复,而低努力模式则有助于节约令牌配额,避免过快触发速率限制。此外,Anthropic 推出了名为“动态工作流”的新功能,目前处于研究预览阶段。该功能使 Claude 能够自主规划任务,并在单次会话中调度数百个并行子代理同时处理工作。结合 Opus 4.8 支持更长时间运行的能力,系统可在输出最终结果前对生成的内容进行验证,从而胜任更复杂的任务。这一系列更新标志着 AI 不仅在能力上有所突破,更在可靠性与自我约束方面迈出了重要一步。
