
초록
최근 대규모 언어 모델(Large Language Models, LLMs)의 발전은 코드 생성, 문제 해결 및 추론 등 다양한 작업에서 뛰어난 능력을 보여주고 있다. 기존의 벤치마크는 각 작업을 별개로 평가하지만, LLM이 서사적 스타일의 문제를 이해하고 그 뒤에 숨은 문제를 파악한 후 적절한 코드 해법을 생성할 수 있는 능력은 여전히 탐색되지 않은 영역이다. 이 격차를 보완하기 위해 우리는 Advent Of Code(AoC)와 Project Euler 문제를 기반으로 한 새로운 벤치마크인 PECC를 제안한다. PECC는 총 2,396개의 문제를 포함하며, 기존 벤치마크와 달리 LLM이 서사적 맥락에 녹아 있는 문제를 해석하고, 요구사항을 추출한 후 실행 가능한 코드를 생성해야 한다. 본 데이터셋의 핵심 특징은 채팅 기반 평가에서 자연어 프롬프트가 추가하는 복잡성으로, 실제 세계의 지시 사항에서 흔히 발생하는 모호성과 유사한 환경을 재현한다. 실험 결과, 서사적 문제와 중립적 문제 간 모델 성능의 차이가 나타났으며, 특히 GPT-3.5-Turbo는 AoC 문제의 50%를 해결했으나, Project Euler의 수학 기반 문제에서는 단 8%만 성공했다. 본 벤치마크를 통해 LLM의 능력 한계를 탐구함으로써, 향후 LLM이 보편적 문제 해결 도구로서 어떻게 발전해 나갈지 모니터링하고 평가할 수 있는 체계적인 틀을 제공한다.