HyperAI초신경

LiveCodeBench Pro: 올림피아드 메달리스트들이 경쟁 프로그래밍에서 LLMs를 어떻게 평가하는가?

Zihan Zheng, Zerui Cheng, Zeyu Shen, Shang Zhou, Kaiyuan Liu, Hansen He, Dongruixuan Li, Stanley Wei, Hangyi Hao, Jianzhu Yao, Peiyao Sheng, Zixuan Wang, Wenhao Chai, Aleksandra Korolova, Peter Henderson, Sanjeev Arora, Pramod Viswanath, Jingbo Shang, Saining Xie
발행일: 6/16/2025
LiveCodeBench Pro: 올림피아드 메달리스트들이 경쟁 프로그래밍에서 LLMs를 어떻게 평가하는가?
초록

최근 보고서에 따르면 대형 언어 모델(LLMs)이 경쟁 프로그래밍에서 최상위 인간 전문가들을 능가하고 있다고 주장된다. 국제 알고리즘 대회에서 메달을 획득한 그룹의 지식을 바탕으로 이 주장을 재검토하며, LLMs와 인간 전문가 간의 차이점과 여전히 존재하는 한계를 살펴본다. 우리는 Codeforces, ICPC, 그리고 IOI에서 출제된 문제들을 지속적으로 업데이트하여 데이터 오염 가능성을 줄인 벤치마크인 LiveCodeBench Pro를 소개한다. 올림피아드 메달리스트 팀은 모든 문제를 알고리즘 카테고리별로 주석을 달고 실패한 모델 생성 제출물에 대한 줄 단위 분석을 수행한다. 이 새로운 데이터와 벤치마크를 사용하여 우리는 최신 모델들이 여전히 상당한 한계를 가지고 있음을 발견하였다: 외부 도구 없이 중간 난이도 문제에서는 53%의 pass@1 성능을, 어려운 문제에서는 0%의 성능을 보이는 반면, 전문 인간들은 여전히 뛰어난 성적을 거두고 있다. 또한 LLMs는 구현 중심적인 문제에서는 성공하지만, 섬세한 알고리즘 추론과 복잡한 사례 분석에는 어려움을 겪으며 종종 자신감 있게 잘못된 근거를 제시하는 것으로 나타났다. 높은 성능은 우수한 추론보다는 구현 정밀성과 도구 확장에 의해 주로 이끌어진 것으로 보인다. 따라서 LiveCodeBench Pro는 인간 그랜드마스터 수준과의 큰 차이점을 강조하면서 코드 중심 LLM 추론의 미래 개선 방향을 세밀하게 진단할 수 있는 기반을 제공한다.