HyperAIHyperAI

Command Palette

Search for a command to run...

APEX AI生産性ベンチマークデータセット

Date

2ヶ月前

Organization

ハーバード大学ロースクール
メルコール
スクリプス研究所

Publish URL

www.mercor.com

Paper URL

2509.25721

APEXは、ハーバード大学ロースクールおよびスクリプス研究所と共同でMercorの研究チームが2025年に初めて公開した包括的なベンチマークデータセットです。経済的価値の高い知識労働における最先端の人工知能モデルの性能評価に使用されています。関連する研究論文のタイトルは「…」です。AI生産性指数(APEX)目標は、抽象的な推論だけに焦点を当てるのではなく、現実世界の経済タスクにおける最先端の AI モデルのパフォーマンスを測定することです。

このデータセットの現在のバージョンはAPEX-v1.0で、投資銀行、経営コンサルティング、法律、基礎医療という4つの典型的な知識集約型分野を網羅し、経済的価値の高い専門的知識タスク事例を200件収録しています。各タスクは、専門家が実務で1~8時間を要する分析、判断、文書化作業に対応しており、引用可能な証拠と、モデル出力の品質を客観的に測定するための解釈可能なきめ細かなスコアリング基準が付属しています。

データセット構築プロセス

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています