Command Palette
Search for a command to run...

要約
AI生産性指標(APEX)の初版を発表する。APEXは、最先端のAIモデルが経済的価値の高い知識労働を効果的に行えるかどうかを評価するためのベンチマークである。APEXは、AI研究における最大の非効率の一つに取り組むものである。すなわち、プログラミングを除く分野では、多くのベンチマークが経済的に意義のある能力を適切に検証できていない点である。APEX-v1.0は200のテストケースを含み、投資銀行、経営コンサルティング、法律、および一次医療の4つの分野をカバーしている。本ベンチマークは、以下の3段階で構築された。第一に、ゴールドマン・サックスなどトップクラスの企業に所属する専門家を採用した。第二に、専門家が日々の業務で実施する高付加価値タスクを反映したプロンプトを設計した。第三に、モデルの回答を評価するための評価基準(ルブリック)を策定した。23の最先端モデルを、言語モデル(LM)ジャッジを用いてAPEX-v1.0で評価した結果、GPT 5(Thinking = High)が平均得点64.2%を記録し最高位にランクインした。次いでGrok 4(61.3%)、Gemini 2.5 Flash(Thinking = On)(60.4%)が続く。オープンソースモデルでは、Qwen 3 235Bが最も高い性能を発揮し、全体でも7位となった。最も優れたモデルであっても人間の専門家と大きな性能差があることから、経済的価値を生み出す能力をより正確に測定する必要性が改めて浮き彫りになった。