Command Palette
Search for a command to run...
Zihan Wang Jiaze Chen Zhicheng Liu Markus Mak Yidi Du Geonsik Moon et al

초록
경쟁 프로그래밍은 대규모 언어 모델(Large Language Models, LLMs)의 추론 및 코딩 능력을 평가하는 데 있어 핵심적인 기준으로 부상하고 있다. 기존 평가 지표에서 눈에 띄는 성과가 있었음에도 불구하고, 우리는 현재의 평가 방식이 모델의 실력을 과대평가하고 있으며, LLM과 최고 수준의 인간 프로그래머 사이에 상당한 격차가 존재함을 숨기고 있다고 주장한다. 이 격차는 두 가지 주요한 한계에서 비롯된다. 첫째, 평가 문제의 난이도와 범위가 부족하며, 둘째, 저품질의 테스트 케이스에 기인한 평가 편향이다. 이러한 문제를 해결하기 위해 우리는 IOI와 ICPC와 같은 최고 수준의 프로그래밍 대회에서 출제된 문제를 기반으로 한 새로운 평가 벤치마크인 AetherCode를 제안한다. AetherCode는 더 넓은 문제 범위와 높은 난이도를 제공함으로써 기존 평가의 한계를 극복한다. 또한, 자동 생성과 인간 검증의 하이브리드 방식을 통해 구축된 포괄적이고 전문가 검증을 거친 테스트 셋을 포함하여 엄격하고 신뢰할 수 있는 평가를 보장한다. 난이도 높은 문제 설계와 견고한 평가 체계를 결합함으로써 AetherCode는 LLM의 능력을 더욱 정확하게 측정할 수 있는 도구를 제공하며, 코드 추론 분야의 향후 연구에 새로운 기준을 제시한다.