한 달 전
SWE-Perf: 언어 모델이 실제 리포지토리에서 코드 성능을 최적화할 수 있을까?
Xinyi He, Qian Liu, Mingzhe Du, Lin Yan, Zhijie Fan, Yiming Huang, Zejian Yuan, Zejun Ma

초록
코드 성능 최적화는 실제 소프트웨어 공학에서 매우 중요하며, 프로덕션 수준의 시스템에서는 필수적입니다. 대형 언어 모델(LLMs)은 코드 생성과 버그 수정에서 뛰어난 능력을 보여주었지만, 저장소 수준에서의 코드 성능 향상 능력에 대해서는 아직 많이 연구되지 않았습니다. 이 간극을 메우기 위해, 우리는 SWE-Perf를 소개합니다. SWE-Perf는 실제 저장소 환경에서 대형 언어 모델의 코드 성능 최적화 작업을 체계적으로 평가하기 위해 설계된 첫 번째 벤치마크입니다. SWE-Perf는 인기 있는 GitHub 저장소의 성능 개선 풀 리퀘스트에서 추출한 140개의 신중하게 선별된 인스턴스로 구성됩니다. 각 벤치마크 인스턴스에는 관련 코드베이스, 대상 함수, 성능 관련 테스트, 전문가가 작성한 패치, 그리고 실행 가능한 환경이 포함되어 있습니다. 파일 수준과 저장소 수준 접근법(예: Agentless와 OpenHands)을 아우르는 대표적인 방법들을 포괄적으로 평가함으로써, 우리는 기존 LLMs와 전문가 수준의 최적화 성능 사이에 상당한 능력 차이가 있음을 밝혔습니다. 이 결과는 이 새로운 분야에서 중요한 연구 기회를 강조하고 있습니다.