AI進化に伴い、Anthropicが採用テストを何度も刷新へ
Anthropicは、AIコード生成モデル「Claude」の進化に伴い、採用のための技術試験を何度も見直している。2024年以降、同社のパフォーマンス最適化チームは、応募者に自宅で課題を提出してもらう形式の試験を導入。しかし、AIツールの進化に伴い、応募者がClaudeにすべての解答を任せてしまうケースが相次ぎ、試験の意味が失われつつあった。 チームリーダーのトレイスタン・ハム氏は水曜日にブログで、この試験の変遷を明らかにした。彼によれば、「各新しいClaudeモデルの登場ごとに、試験の構成を再設計せざるを得ない状況」が続いている。特にClaude Opus 4は、制限時間内にほとんどの人間応募者を上回ったが、それでもトップ層の応募者と区別がついた。しかし、その後登場したOpus 4.5は、そのトップ層の応募者すらも凌駕する結果を出した。 応募者は試験中にAIツールの利用を許可されているが、AIが人間の出力を上回るようになると、試験は「どのAIモデルを使っているか」を測るだけのものになり、人材の能力評価としての意味を失う。ハム氏は「トップ候補の出力と最も強力なモデルの出力の差がなくなってしまった」と指摘した。 この問題は教育現場でも深刻な課題となっており、AIラボが自らの採用プロセスで直面しているのは皮肉な状況だ。しかし、Anthropicは自社のAI開発の実績を活かし、対応策を講じた。新たな試験では、ハードウェア最適化に偏らない、AIが予測しにくい新しい課題構成を採用。これにより、現在のAIモデルでも解けない難易度に設定した。 また、同ブログでは元の試験問題を公開し、「Opus 4.5を上回る解答を提出できる人を歓迎する」と呼びかけている。この試験の変遷は、AIの進化が人間の能力評価のあり方を根本から問い直していることを示している。
