Command Palette

Search for a command to run...

APEX AI生産性ベンチマークデータセット

APEXは、ハーバード大学ロースクールおよびスクリプス研究所と共同でMercorの研究チームが2025年に初めて公開した包括的なベンチマークデータセットです。経済的価値の高い知識労働における最先端の人工知能モデルの性能評価に使用されています。関連する研究論文のタイトルは「…」です。AI生産性指数(APEX)目標は、抽象的な推論だけに焦点を当てるのではなく、現実世界の経済タスクにおける最先端の AI モデルのパフォーマンスを測定することです。

このデータセットの現在のバージョンはAPEX-v1.0で、投資銀行、経営コンサルティング、法律、基礎医療という4つの典型的な知識集約型分野を網羅し、経済的価値の高い専門的知識タスク事例を200件収録しています。各タスクは、専門家が実務で1~8時間を要する分析、判断、文書化作業に対応しており、引用可能な証拠と、モデル出力の品質を客観的に測定するための解釈可能なきめ細かなスコアリング基準が付属しています。

データセット構築プロセス

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています