SWE-Factory: 이슈 해결 훈련 데이터 및 평가 벤치마크의 자동화된 공장

대규모 데이터셋을 구축하는 것은 대형 언어 모델(LLM)의 소프트웨어 공학 능력을 훈련하고 평가하는 데 있어 매우 중요합니다. 그러나 이러한 벤치마크를 만드는 전통적인 과정은 특히 평가 환경 설정, 테스트 결과 채점, 그리고 작업 인스턴스 검증 단계에서 유명세를 타지 않게도 어려운 작업이며 많은 노동력을 필요로 합니다. 본 논문에서는 이러한 문제들을 해결하기 위해 SWE-Factory라는 자동화 파이프라인을 제안합니다. 이 문제들을 해결하기 위해 우리의 파이프라인은 세 가지 핵심 자동화 구성 요소를 통합합니다. 첫째, 우리는 SWE-Builder라는 다중 에이전트 시스템을 소개하는데, 이 시스템은 평가 환경 구축을 자동화하며, 네 개의 전문 에이전트들이 협력적이고 반복적인 루프에서 작동하고 환경 메모리 풀을 활용하여 효율성을 높입니다. 둘째, 우리는 수작업으로 사용자 정의 파서를 작성할 필요성을 제거하는 표준화된 종료 코드 기반 채점 방법을 소개합니다. 마지막으로, 신뢰성 있는 종료 코드 신호를 사용하여 실패에서 성공(fail2pass) 검증 과정을 자동화합니다.네 가지 프로그래밍 언어에 걸친 671개의 이슈에 대한 실험 결과는 우리의 파이프라인이 유효한 작업 인스턴스를 효과적으로 구축할 수 있음을 보여줍니다. 예를 들어, GPT-4.1-mini를 사용할 때 SWE-Builder는 각 인스턴스당 0.045의 비용으로 269개의 유효한 인스턴스를 구축하였으며, Gemini-2.5-flash를 사용할 때는 가장 낮은 비용인 각 인스턴스당 0.024로 유사한 성능을 달성하였습니다. 또한, 우리의 종료 코드 기반 채점 방법은 수작업 검사와 비교하여 100%의 정확도를 달성하였으며, 자동화된 실패에서 성공(fail2pass) 검증은 정밀도 0.92와 재현율 1.00을 도달하였습니다.우리는 이 자동화 파이프라인이 대규모 고품질 GitHub 이슈 해결 데이터셋의 수집을 가속화하여 훈련과 평가에 활용되기를 바랍니다. 우리의 코드와 데이터셋은 https://github.com/DeepSoftwareAnalytics/swe-factory에서 제공됩니다.