HyperAI超神经
Back to Headlines

Claude 4.1 Opus发布,编程能力显著提升,后续优化持续进行

2 天前

2025年8月5日,Anthropic正式发布其旗舰模型Claude Opus 4.1,标志着其在AI编程、智能体任务与推理能力上的持续突破。该版本在多项关键指标上实现显著提升,尤其在真实世界编程场景中表现亮眼,已向付费用户、Claude Code订阅者及主流云平台(Amazon Bedrock、Google Cloud Vertex AI)全面开放,定价维持与前代一致,仍为当前市场上最昂贵的AI模型之一。 在核心性能方面,Claude Opus 4.1在SWE-bench Verified基准测试中达到74.5%的准确率,较Opus 4提升2个百分点,超越OpenAI的o3模型(69.1%)和谷歌Gemini 2.5 Pro(67.2%)。在代理编程测试Terminal-Bench中,得分43.3%,大幅领先于o3(30.2%)和Gemini 2.5 Pro(25.3%)。GitHub指出,新模型在多文件代码重构等复杂任务中表现尤为突出;乐天集团反馈其能精准定位并修正大型代码库中的问题,避免引入冗余修改或新缺陷;编程平台Windsurf则称其在初级开发者基准测试中实现一个标准差的提升,相当于从Sonnet 3.7跃升至Sonnet 4的性能跃迁。 在安全层面,Claude Opus 4.1继续运行于最严格的AI安全等级ASL-3框架下,拒绝不当请求的比例从97.27%提升至98.76%,安全性进一步增强。然而,在通用推理能力方面,如GPQA Diamond测试中得分80.9%,与前代持平,仍落后于Gemini 2.5 Pro(86.4%)和o3(83.3%);在AIME数学竞赛与MMMU视觉推理测试中也未形成绝对优势,表明此次升级聚焦于特定高价值场景,而非全面超越。 此次发布正值AI行业竞争白热化阶段。就在同日,OpenAI发布首批开源推理模型,市场普遍预期GPT-5即将登场。Anthropic首席产品官Mike Krieger表示,公司策略已从“等待重大发布”转向“持续迭代现有产品”,以应对快速变化的技术环境。 商业表现方面,Anthropic年化经常性收入(ARR)在七个月内从10亿美元跃升至近50亿美元,其中Claude Code订阅服务年收入已达4亿美元,近期实现翻倍增长。公司正推进由Iconiq Capital领投的50亿美元融资,估值或达1700亿美元,有望成为全球第三大独角兽,仅次于OpenAI与SpaceX。 Anthropic在声明中表示,未来几周将推出“更大幅度的模型改进”,预示着下一阶段技术突破即将来临。这场围绕AI核心能力的巅峰对决,已然进入新阶段。

Related Links