HyperAI

1 个月前

自2024年以来，Anthropic的人工智能性能优化团队一直通过一项“居家测试”评估求职者的技术能力。然而，随着AI编程工具的不断进步，尤其是其自研模型Claude的持续升级，这项测试不得不频繁调整，以防止候选人直接用Claude生成全部答案。团队负责人特里斯坦·休姆（Tristan Hume）在本周发布的一篇博客中回顾了这一挑战的演变过程。他指出，每当新一代Claude模型上线，测试就必须重新设计。例如，Claude Opus 4在相同时间限制下表现已超越大多数人类应聘者；而随后推出的Opus 4.5甚至能与顶尖人类候选人的输出水平持平。尽管Anthropic允许应聘者在测试中使用AI工具，但这一现象带来了严峻的评估难题：如果人类无法在质量或效率上超越AI模型，那么测试就失去了筛选顶尖人才的意义。休姆坦言：“在现有测试条件下，我们已无法区分顶级候选人的输出与最强大模型的成果。” 这一困境并非孤例，全球许多学校和大学正面临AI作弊带来的冲击。然而，作为一家AI实验室，Anthropic反而具备独特优势来应对这一挑战。最终，休姆设计了一项新测试，其重点从硬件优化转向更具创造性和情境适应性的任务，使当前主流AI工具难以轻易应对。在博客中，他还公开了原始测试题，邀请读者挑战：“如果你能超越Opus 4.5，我们非常乐意倾听你的方案。”这一举动既体现了Anthropic对技术前沿的坦诚，也折射出AI时代人才评估的深层变革。

相关链接

相关链接

相关链接

在线教程丨基于 500 万小时语音数据，Qwen3-TTS 实现 3 秒语音克隆及精细调控

在线教程丨基于 500 万小时语音数据，Qwen3-TTS 实现 3 秒语音克隆及精细调控

Command Palette

Claude越强，面试题越难：Anthropic持续升级技术考题应对AI突破

相关链接

Command Palette

Claude越强，面试题越难：Anthropic持续升级技术考题应对AI突破

相关链接

Command Palette

Claude越强，面试题越难：Anthropic持续升级技术考题应对AI突破

相关链接

在线教程丨基于 500 万小时语音数据，Qwen3-TTS 实现 3 秒语音克隆及精细调控

在线教程丨基于 500 万小时语音数据，Qwen3-TTS 实现 3 秒语音克隆及精细调控