Command Palette
Search for a command to run...
APEX AI 생산성 벤치마크 데이터 세트
APEX는 메르코르(Mercor) 연구팀이 하버드 로스쿨 및 스크립스 연구소와 협력하여 2025년에 처음 발표한 포괄적인 벤치마크 데이터셋입니다. 고경제적 가치가 있는 지식 작업에서 최첨단 인공지능 모델의 성능을 평가하는 데 사용됩니다. 관련 연구 논문의 제목은 "..."입니다.AI 생산성 지수(APEX)목표는 추상적인 추론에만 초점을 맞추는 것이 아니라, 실제 경제 업무에서 최첨단 AI 모델의 성능을 측정하는 것입니다.
이 데이터셋의 현재 버전은 APEX-v1.0으로, 투자 은행, 경영 컨설팅, 법률, 그리고 기초 의료의 네 가지 전형적인 지식 집약 분야를 포괄하는 200개의 고경제적 가치를 지닌 전문 지식 과제 사례를 포함하고 있습니다. 각 과제는 전문가가 실제 업무에서 1~8시간 정도 소요되는 분석, 판단 및 문서화 작업에 해당하며, 모델 출력의 품질을 객관적으로 측정하기 위해 인용 가능한 증거와 해석 가능하고 세분화된 채점 기준이 함께 제공됩니다.
