Discord에서 논의하기

일 년 전

Zheyuan Yang Zexi Kuang Xue Xia Yilun Zhao

초록

우리는 시스템적으로 LLM(대형 언어 모델)의 테스트 케이스 생성 능력을 평가하기 위한 새로운 벤치마크인 TestCase-Eval을 소개합니다. TestCase-Eval은 Codeforces 플랫폼에서 500개의 알고리즘 문제와 10만 개의 인간이 작성한 솔루션을 포함하고 있습니다. 이 벤치마크는 두 가지 핵심 과제에 중점을 둡니다: (1) 결함 커버리지(Fault Coverage), 이는 LLM이 생성한 테스트 세트가 다양한 입력 시나리오를 탐색하고 잠재적인 실패 모드의 넓은 범위를 포괄하는 정도를 측정합니다. (2) 결함 노출(Fault Exposure), 이는 LLM이 특정 잘못된 코드 구현을 드러내기 위해 맞춤형 테스트 입력을 작성할 수 있는지를 평가합니다. 우리는 TestCase-Eval에서 19개의 최신 오픈 소스 및 상용 LLM들을 종합적으로 평가하여, 알고리즘 문제에 대한 효과적인 테스트 케이스 생성 능력의 강점과 한계에 대한 통찰을 제공합니다.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

일 년 전

Zheyuan Yang Zexi Kuang Xue Xia Yilun Zhao

초록

우리는 시스템적으로 LLM(대형 언어 모델)의 테스트 케이스 생성 능력을 평가하기 위한 새로운 벤치마크인 TestCase-Eval을 소개합니다. TestCase-Eval은 Codeforces 플랫폼에서 500개의 알고리즘 문제와 10만 개의 인간이 작성한 솔루션을 포함하고 있습니다. 이 벤치마크는 두 가지 핵심 과제에 중점을 둡니다: (1) 결함 커버리지(Fault Coverage), 이는 LLM이 생성한 테스트 세트가 다양한 입력 시나리오를 탐색하고 잠재적인 실패 모드의 넓은 범위를 포괄하는 정도를 측정합니다. (2) 결함 노출(Fault Exposure), 이는 LLM이 특정 잘못된 코드 구현을 드러내기 위해 맞춤형 테스트 입력을 작성할 수 있는지를 평가합니다. 우리는 TestCase-Eval에서 19개의 최신 오픈 소스 및 상용 LLM들을 종합적으로 평가하여, 알고리즘 문제에 대한 효과적인 테스트 케이스 생성 능력의 강점과 한계에 대한 통찰을 제공합니다.

소스 PDF 코드 보기

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

LLM이 알고리즘 문제에 대한 고품질 테스트 케이스를 생성할 수 있는가? TestCase-Eval: 오류 커버리지 및 노출의 체계적인 평가 | 문서 | HyperAI초신경