LLM이 알고리즘 문제에 대한 고품질 테스트 케이스를 생성할 수 있는가? TestCase-Eval: 오류 커버리지 및 노출의 체계적인 평가
Zheyuan Yang, Zexi Kuang, Xue Xia, Yilun Zhao
발행일: 6/18/2025

초록
우리는 시스템적으로 LLM(대형 언어 모델)의 테스트 케이스 생성 능력을 평가하기 위한 새로운 벤치마크인 TestCase-Eval을 소개합니다. TestCase-Eval은 Codeforces 플랫폼에서 500개의 알고리즘 문제와 10만 개의 인간이 작성한 솔루션을 포함하고 있습니다. 이 벤치마크는 두 가지 핵심 과제에 중점을 둡니다: (1) 결함 커버리지(Fault Coverage), 이는 LLM이 생성한 테스트 세트가 다양한 입력 시나리오를 탐색하고 잠재적인 실패 모드의 넓은 범위를 포괄하는 정도를 측정합니다. (2) 결함 노출(Fault Exposure), 이는 LLM이 특정 잘못된 코드 구현을 드러내기 위해 맞춤형 테스트 입력을 작성할 수 있는지를 평가합니다. 우리는 TestCase-Eval에서 19개의 최신 오픈 소스 및 상용 LLM들을 종합적으로 평가하여, 알고리즘 문제에 대한 효과적인 테스트 케이스 생성 능력의 강점과 한계에 대한 통찰을 제공합니다.