pyMethods2Test 프로그래밍 언어 처리 데이터 세트
pyMethods2Test 데이터 세트는 2025년에 네브래스카-링컨 대학교 연구원들에 의해 만들어졌습니다. 이 데이터 세트에는 수많은 오픈 소스 단위 테스트 방법과 해당 포커스 맵이 포함되어 있습니다. 이 프로젝트의 목표는 대규모 테스트 데이터 세트에서 Python 언어의 빈틈을 메우고 Python 코드에 대한 효과적인 단위 테스트 사례를 생성하는 것입니다. 관련 논문 결과는 다음과 같습니다.pyMethods2Test: 초점 메서드에 매핑된 Python 테스트 데이터 세트"는 대규모 언어 모델(LLM)을 훈련하여 우수한 Python 단위 테스트 사례를 생성하는 데 널리 사용되며, LLM에 풍부한 훈련 데이터를 제공하여 Python 코드에 대한 테스트를 생성하는 방법을 학습할 수 있도록 합니다.
이 데이터 세트는 Pytest와 unittest 프레임워크를 사용하는 GitHub의 88,846개 Python 프로젝트를 마이닝하여 구성되었으며, 22,662,037개 테스트 방법과 2,198,378개 포커스 맵 컬렉션이 구성되었습니다.
이 데이터 세트에는 테스트 메서드와 포커스 메서드 간의 2,200만 개 이상의 매핑이 포함되어 있으며, 테스트 파일 경로, 포커스 파일 경로, 클래스 이름, 메서드 이름, 줄 번호 등과 같은 각 매핑에 대한 자세한 컨텍스트 정보를 제공합니다. 쉽게 처리할 수 있도록 JSON 형식으로 저장됩니다. 또한 포커스 메서드 컨텍스트를 생성하는 스크립트도 제공됩니다.
데이터는 두 개의 ZIP 파일에 저장되어 있습니다. 미리 채굴된 포커스 데이터만 사용하려면 압축을 풀어주세요. focal-data.zip
파일(압축 해제 후 약 2GB) 더 큰 raw-data.zip
파일(압축 해제 후 약 42GB)에는 저장소에서 추출한 클래스와 메서드 등 포커스 데이터를 생성하는 데 사용된 원시 데이터가 포함되어 있습니다.