5일 전

인공지능 생산성 지수(APEX)

Bertie Vidgen Abby Fennelly Evan Pinnix Chirag Mahapatra Zach Richards Austin Bridges Calix Huang Ben Hunsberger Fez Zafar Brendan Foody

초록

우리는 경제적 가치가 높은 지식 작업을 수행할 수 있는 최첨단 AI 모델의 능력을 평가하기 위한 기준으로서, 최초의 AI 생산성 지수(APEX, AI Productivity Index)를 소개한다. APEX는 AI 연구 분야에서 가장 큰 비효율 중 하나를 해결한다. 즉, 프로그래밍 외 영역에서의 벤치마크는 경제적으로 의미 있는 능력을 충분히 검증하지 못한다는 점이다. APEX-v1.0은 총 200개의 테스트 케이스를 포함하며, 투자은행, 경영 컨설팅, 법률, 그리고 원격 의료(기초 의료)의 네 가지 영역을 아우른다. 이 지수는 세 단계로 구축되었다. 첫째, 골드만 샤크스(Goldman Sachs) 등에서 근무한 최고 수준의 전문가들을 선정하였다. 둘째, 전문가들이 일상 업무에서 수행하는 고가치 업무를 반영하도록 프롬프트를 작성하였다. 셋째, 모델의 응답을 평가하기 위한 평가 기준(rubrics)을 마련하였다. 우리는 언어 모델 판별자(LM judge)를 활용하여 APEX-v1.0에서 23개의 최첨단 모델을 평가하였다. 그 결과, GPT-5(Technology = High)가 평균 점수 64.2%로 가장 높은 성능을 기록하였으며, 그 다음으로 그록 4(Grok 4, 61.3%), 지미니 2.5 플래시(Gemini 2.5 Flash, Thinking = On, 60.4%) 순이었다. 오픈소스 모델 중에서는 Qwen 3 235B가 가장 우수한 성능을 보이며, 전체 순위에서 7위를 기록하였다. 최고의 모델 성능과 인간 전문가 수준 사이에는 여전히 큰 격차가 존재하며, 이는 모델이 경제적 가치 있는 작업을 수행할 수 있는 능력을 보다 정밀하게 측정할 필요성이 있음을 시사한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩

즉시 사용 가능한 GPU

최적 가격

시작하기

Hyper Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

인공지능 생산성 지수(APEX)

Bertie Vidgen Abby Fennelly Evan Pinnix Chirag Mahapatra Zach Richards Austin Bridges Calix Huang Ben Hunsberger Fez Zafar Brendan Foody4 more

초록

AI로 AI 구축

Hyper Newsletters

Bertie Vidgen Abby Fennelly Evan Pinnix Chirag Mahapatra Zach Richards Austin Bridges Calix Huang Ben Hunsberger Fez Zafar Brendan Foody