Claude越强,面试题越难:Anthropic持续升级技术考题应对AI突破
自2024年以来,Anthropic的人工智能性能优化团队一直通过一项“居家测试”评估求职者的技术能力。然而,随着AI编程工具的不断进步,尤其是其自研模型Claude的持续升级,这项测试不得不频繁调整,以防止候选人直接用Claude生成全部答案。 团队负责人特里斯坦·休姆(Tristan Hume)在本周发布的一篇博客中回顾了这一挑战的演变过程。他指出,每当新一代Claude模型上线,测试就必须重新设计。例如,Claude Opus 4在相同时间限制下表现已超越大多数人类应聘者;而随后推出的Opus 4.5甚至能与顶尖人类候选人的输出水平持平。 尽管Anthropic允许应聘者在测试中使用AI工具,但这一现象带来了严峻的评估难题:如果人类无法在质量或效率上超越AI模型,那么测试就失去了筛选顶尖人才的意义。休姆坦言:“在现有测试条件下,我们已无法区分顶级候选人的输出与最强大模型的成果。” 这一困境并非孤例,全球许多学校和大学正面临AI作弊带来的冲击。然而,作为一家AI实验室,Anthropic反而具备独特优势来应对这一挑战。最终,休姆设计了一项新测试,其重点从硬件优化转向更具创造性和情境适应性的任务,使当前主流AI工具难以轻易应对。 在博客中,他还公开了原始测试题,邀请读者挑战:“如果你能超越Opus 4.5,我们非常乐意倾听你的方案。”这一举动既体现了Anthropic对技术前沿的坦诚,也折射出AI时代人才评估的深层变革。
