RES-Q: 레포지토리 규모에서 코드 편집 대규모 언어 모델 시스템 평가

대규모 언어 모델(Large Language Models, LLMs)의 지시 수행 능력은 대규모 코드 리포지토리 편집과 같은 복잡한 작업을 수행할 수 있는 LLM 기반 시스템의 등장을 가능하게 하였다. 그러나 LLM의 행동은 프롬프트의 미세한 변화에 매우 민감하고 예측 불가능한 특성을 지니고 있어, 이러한 시스템의 향후 발전을 이끌어내기 위한 강력한 평가 도구가 필수적이다. 본 연구에서는 실제 GitHub 커밋을 기반으로 수작업으로 구성한 100개의 리포지토리 편집 작업을 포함하는, 자연어 지시 기반의 평가 벤치마크인 RES-Q(Repository Editing Systems의 약자)를 제안한다. RES-Q는 특정 편집 지시와 코드 리포지토리를 제공받았을 때, LLM 시스템이 해당 지시를 정확히 해석하고 리포지토리 내에서 관련 정보를 탐색하며, 지정된 기준을 충족하는 적절한 수정을 생성하는 능력을 평가한다. 우리는 이러한 평가 방식이 기존 벤치마크의 한계를 극복하고 모델의 능력을 보다 포괄적으로 평가할 수 있다고 주장한다. 우리는 Qurrent OS(자체 언어 에이전트 개발 소프트웨어) 기반의 리포지토리 편집 시스템에서 최신의 다양한 LLM들을 언어 에이전트로 평가하였다. HumanEval에서 1%의 pass@1 성능 차이를 보이는 클로드 손넷 3.5와 GPT-4o에 대해 RES-Q에서 클로드 손넷 3.5가 12% 높은 pass@1 성능을 기록함으로써, 기존 벤치마크가 포화 상태에 접어들고 있는 상황에서 RES-Q가 모델 간 능력 차이를 효과적으로 구분할 수 있음을 확인하였다. 또한, 토큰 효율성, 기존 벤치마크와의 성능 상관관계, 그리고 폐쇄형과 오픈소스 LLM 간의 흥미로운 성능 차이를 추가로 조사하였다. 코드 및 데이터셋은 https://github.com/Qurrent-AI/RES-Q 에서 공개되어 있다.