HyperAI超神经

2025年8月5日，Anthropic正式发布其旗舰模型Claude Opus 4.1，标志着其在AI编程、智能体任务与推理能力上的持续突破。该版本在多项关键指标上实现显著提升，尤其在真实世界编程场景中表现亮眼，已向付费用户、Claude Code订阅者及主流云平台（Amazon Bedrock、Google Cloud Vertex AI）全面开放，定价维持与前代一致，仍为当前市场上最昂贵的AI模型之一。在核心性能方面，Claude Opus 4.1在SWE-bench Verified基准测试中达到74.5%的准确率，较Opus 4提升2个百分点，超越OpenAI的o3模型（69.1%）和谷歌Gemini 2.5 Pro（67.2%）。在代理编程测试Terminal-Bench中，得分43.3%，大幅领先于o3（30.2%）和Gemini 2.5 Pro（25.3%）。GitHub指出，新模型在多文件代码重构等复杂任务中表现尤为突出；乐天集团反馈其能精准定位并修正大型代码库中的问题，避免引入冗余修改或新缺陷；编程平台Windsurf则称其在初级开发者基准测试中实现一个标准差的提升，相当于从Sonnet 3.7跃升至Sonnet 4的性能跃迁。在安全层面，Claude Opus 4.1继续运行于最严格的AI安全等级ASL-3框架下，拒绝不当请求的比例从97.27%提升至98.76%，安全性进一步增强。然而，在通用推理能力方面，如GPQA Diamond测试中得分80.9%，与前代持平，仍落后于Gemini 2.5 Pro（86.4%）和o3（83.3%）；在AIME数学竞赛与MMMU视觉推理测试中也未形成绝对优势，表明此次升级聚焦于特定高价值场景，而非全面超越。此次发布正值AI行业竞争白热化阶段。就在同日，OpenAI发布首批开源推理模型，市场普遍预期GPT-5即将登场。Anthropic首席产品官Mike Krieger表示，公司策略已从“等待重大发布”转向“持续迭代现有产品”，以应对快速变化的技术环境。商业表现方面，Anthropic年化经常性收入（ARR）在七个月内从10亿美元跃升至近50亿美元，其中Claude Code订阅服务年收入已达4亿美元，近期实现翻倍增长。公司正推进由Iconiq Capital领投的50亿美元融资，估值或达1700亿美元，有望成为全球第三大独角兽，仅次于OpenAI与SpaceX。 Anthropic在声明中表示，未来几周将推出“更大幅度的模型改进”，预示着下一阶段技术突破即将来临。这场围绕AI核心能力的巅峰对决，已然进入新阶段。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

Claude 4.1 Opus发布，编程能力显著提升，后续优化持续进行

相关链接

Command Palette

Claude 4.1 Opus发布，编程能力显著提升，后续优化持续进行

相关链接

Command Palette

Claude 4.1 Opus发布，编程能力显著提升，后续优化持续进行

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟