Back to Headlines

AI Outperforms Humans on Real-World Work Tasks in Landmark Study, OpenAI Reports

4일 전

OpenAI는 최근 발표한 새로운 평가 기준 GDPval을 통해 ChatGPT 등 최첨단 AI 모델이 실무 업무에서 인간 전문가 수준의 성과를 내고 있음을 입증했다. 이 평가 기준은 미국 GDP의 주요 기여 산업인 부동산, 정부, 제조, 금융 등 9개 분야의 44개 직무를 대상으로, 실제 업무에서 발생하는 실질적인 작업을 기반으로 설계됐다. 각 직무별로 평균 14년 경력의 전문가가 실제 업무 예시를 작성하고, AI 생성물과 비교 평가하는 방식으로 진행됐다. 평가 결과, Claude Opus 4.1이 인간 전문가 작업과 비교해 47.6%의 승리 및 동률을 기록하며 최고 성능을 보였으며, 특히 문서 포맷이나 슬라이드 레이아웃 등 시각적 완성도에서 뛰어났다. GPT-5는 정확성과 지시사항 준수에서 강점을 보였고, GPT-4o는 12.4%로 가장 낮은 성과를 기록했다. AI는 카운터 및 임대 직원, 물류 및 재고 담당자, 소프트웨어 개발자 등 반복적이고 구조화된 업무에서 높은 성능을 보였지만, 산업 공학자, 약사, 영상 편집자 등 창의성과 정밀 판단이 필요한 직무에서는 여전히 한계를 드러냈다. OpenAI는 AI가 인간보다 100배 빠르고 100배 저렴하게 작업을 수행할 수 있다고 강조하면서도, 대부분의 일은 단순 작업의 집합이 아니라 판단과 창의성이 필요한 복합적 과정이라며 완전한 대체는 불가능하다고 밝혔다. GDPval은 AI의 실용성에 대한 논의를 허구적 기대가 아닌 실증적 데이터 기반으로 전환하려는 시도로, AI가 인간의 업무를 보완하고 창의적 판단에 집중할 수 있도록 지원할 수 있다는 점에서 의미가 크다.

Related Links

AI Outperforms Humans on Real-World Work Tasks in Landmark Study, OpenAI Reports | 헤드라인 | HyperAI초신경