Command Palette
Search for a command to run...
APEX AI生産性ベンチマークデータセット
APEXは、ハーバード大学ロースクールおよびスクリプス研究所と共同でMercorの研究チームが2025年に初めて公開した包括的なベンチマークデータセットです。経済的価値の高い知識労働における最先端の人工知能モデルの性能評価に使用されています。関連する研究論文のタイトルは「…」です。AI生産性指数(APEX)目標は、抽象的な推論だけに焦点を当てるのではなく、現実世界の経済タスクにおける最先端の AI モデルのパフォーマンスを測定することです。
このデータセットの現在のバージョンはAPEX-v1.0で、投資銀行、経営コンサルティング、法律、基礎医療という4つの典型的な知識集約型分野を網羅し、経済的価値の高い専門的知識タスク事例を200件収録しています。各タスクは、専門家が実務で1~8時間を要する分析、判断、文書化作業に対応しており、引用可能な証拠と、モデル出力の品質を客観的に測定するための解釈可能なきめ細かなスコアリング基準が付属しています。
