Command Palette

Search for a command to run...

APEX AI 생산성 벤치마크 데이터 세트

APEX는 메르코르(Mercor) 연구팀이 하버드 로스쿨 및 스크립스 연구소와 협력하여 2025년에 처음 발표한 포괄적인 벤치마크 데이터셋입니다. 고경제적 가치가 있는 지식 작업에서 최첨단 인공지능 모델의 성능을 평가하는 데 사용됩니다. 관련 연구 논문의 제목은 "..."입니다.AI 생산성 지수(APEX)목표는 추상적인 추론에만 초점을 맞추는 것이 아니라, 실제 경제 업무에서 최첨단 AI 모델의 성능을 측정하는 것입니다.

이 데이터셋의 현재 버전은 APEX-v1.0으로, 투자 은행, 경영 컨설팅, 법률, 그리고 기초 의료의 네 가지 전형적인 지식 집약 분야를 포괄하는 200개의 고경제적 가치를 지닌 전문 지식 과제 사례를 포함하고 있습니다. 각 과제는 전문가가 실제 업무에서 1~8시간 정도 소요되는 분석, 판단 및 문서화 작업에 해당하며, 모델 출력의 품질을 객관적으로 측정하기 위해 인용 가능한 증거와 해석 가능하고 세분화된 채점 기준이 함께 제공됩니다.

데이터셋 구축 과정

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp