HyperAI초신경
14일 전

Skywork-SWE: 소프트웨어 공학에서의 LLM 데이터 스케일링 법칙 밝히기

Liang Zeng, Yongcong Li, Yuzhen Xiao, Changshi Li, Chris Yuhao Liu, Rui Yan, Tianwen Wei, Jujie He, Xuchen Song, Yang Liu, Yahui Zhou
Skywork-SWE: 소프트웨어 공학에서의 LLM 데이터 스케일링 법칙 밝히기
초록

소프트웨어 공학(SWE)은 최근 차세대 대형 언어 모델(LLM) 에이전트의 중요한 테스트베드로 부상하고 있으며, 지속적인 반복 문제 해결(예: 50회 이상의 상호작용 라운드)과 장기적 맥락 의존성 해결(예: 32,000 토큰 이상)이라는 두 가지 핵심 차원에서 본질적인 능력을 요구하고 있습니다. 그러나 SWE에서 데이터 큐레이션 과정은 여전히 시간 소모가 심하며, 코드 파일 필터링과 전용 런타임 환경 설정을 위한 수동 주석 작업에 크게 의존하고 있습니다. 이로 인해 대부분의 기존 데이터셋은 몇천 개의 GitHub 출처 인스턴스에만 제한되어 있습니다. 이를 해결하기 위해, 우리는 SWE 데이터셋의 규모와 다양성을 체계적으로 확장할 수 있는 점진적이고 자동화된 데이터 큐레이션 파이프라인을 제안합니다. 우리의 데이터셋은 2,531개의 고유한 GitHub 저장소에서 추출한 10,169개의 실제 Python 작업 인스턴스로 구성되며, 각 인스턴스는 자연어로 정의된 작업과 자동 단위 테스트 검증을 위한 전용 런타임 환경 이미지가 포함되어 있습니다. 우리는 제안된 SWE 데이터셋에서 8,000개 이상의 성공적으로 런타임 검증된 학습 경로를 신중하게 큐레이션하였습니다. 이러한 경로를 사용하여 Skywork-SWE 모델을 미세 조정(fine-tuning)할 때, 우리는 LLM의 소프트웨어 공학 능력에 있어 훈련된 모델의 성능이 데이터 크기가 증가함에 따라 계속해서 개선되는 뚜렷한 데이터 스케일링 현상을 발견하였습니다. 특히, 우리의 Skywork-SWE 모델은 검증자(verifiers)나 여러 번의 실행(multiple rollouts) 없이 SWE-bench Verified 벤치마크에서 38.0%의 pass@1 정확도를 달성하여 OpenHands 에이전트 프레임워크 기반으로 구축된 Qwen2.5-Coder-32B 기반 LLM들 중 새로운 최고 수준(SOTA)을 세웠습니다. 또한, 테스트 시 스케일링 기술을 적용함으로써 성능이 더욱 개선되어 47.0%의 정확도를 달성하였으며, 이는 32B 미만 매개변수 모델에 대한 이전 SOTA 결과를 초월하였습니다. 우리는 미래 연구를 가속화하기 위해 Skywork-SWE-32B 모델 체크포인트를 공개합니다.