SWE-bench 검증된 코드 생성 평가 벤치마크 데이터 세트
* 이 데이터 세트는 온라인 사용을 지원합니다.여기를 클릭하여 이동하세요.
데이터 세트 소개
벤치마크는 기존 SWE 벤치마크의 개선된 버전(하위 집합)으로, AI 모델이 실제 소프트웨어 문제를 해결하는 능력을 보다 안정적으로 평가하도록 설계되었습니다.
SWE-bench의 견고성과 안정성을 개선하기 위해 OpenAI는 전문 소프트웨어 개발자가 수행하는 수동 주석 캠페인을 시작하여 SWE-bench 테스트 세트의 각 샘플을 검토하여 단위 테스트의 범위가 적절하고 문제 설명이 명확하고 모호하지 않은지 확인했습니다.
그들은 SWE-bench의 저자와 함께 SWE-bench Verified를 출시했습니다. 이는 인간 주석자에 의해 검증된 500개의 샘플을 포함하는 원래 SWE-bench 테스트 세트의 하위 집합입니다. 이 버전은 원래의 SWE-bench 및 SWE-bench Lite 테스트 모음을 대체합니다.
SWE-bench Verified에서 GPT-4o는 33.2% 샘플을 풀었고, 성능이 가장 뛰어난 오픈소스 에이전트 프레임워크인 Agentless는 점수를 두 배로 늘려 16%를 기록했습니다.
SWE-bench_Verified.torrent
시딩 2다운로드 중 0완료됨 137총 다운로드 횟수 134