Claude 4.5 两小时工程测试完胜人类,Anthropic 宣布AI新突破
人工智能公司Anthropic宣布,其最新发布的Claude Opus 4.5模型在公司内部的工程入职笔试中表现超越所有人类应试者。该测试为时两小时,是Anthropic用于评估潜在工程师技术能力与临场判断力的“业内难度极高”的编程考试。 在周一发布的博客中,Anthropic称,Claude Opus 4.5在多次尝试后选择最优解,最终得分高于此前所有参加该测试的人类候选人。尽管公司未公开测试的具体内容,但据Glassdoor 2024年的一份面试反馈,该测试分为四个层级,要求候选人实现特定系统并添加功能。目前尚不清楚此次AI测试是否与该版本一致。 Anthropic强调,虽然该测试不能全面衡量工程师的全部能力,但AI在关键技术技能上的超越,引发了关于AI将如何重塑软件工程职业的广泛讨论。 此次发布距离Claude 4.0上线仅三个月。除编程能力提升外,新模型在生成专业文档方面也取得进展,包括自动生成Excel表格和PowerPoint演示文稿。 值得注意的是,尽管与Meta在AI领域存在竞争,Meta仍选择使用Claude为内部开发工具Devmate提供支持。这进一步巩固了Anthropic在AI编程领域的领先地位。 Anthropic未公开其训练方法,但Stackblitz CEO Eric Simons此前向Business Insider透露,公司可能让AI自主编写并部署代码,再由人工和AI共同评估。Anthropic产品管理、研究与前沿部门负责人Dianne Penn表示,这一描述“基本属实”。 2023年10月,Anthropic CEO Dario Amodei在Dreamforce大会上表示,Claude已负责公司90%的代码编写工作。但他强调,AI并未取代工程师,而是提升了人效——工程师可将精力集中于10%最复杂、最需判断力的代码修改或AI监督任务,整体团队规模甚至可能增加。
