Command Palette
Search for a command to run...
Alexander Kovrigin Aleksandra Eliseeva Konstantin Grotov Egor Bogomolov Yaroslav Zharov

초록
환경 설정은 특정 소프트웨어 프로젝트와 시스템을 원활하게 연동하기 위해 시스템을 구성하는 과정으로, 소프트웨어 공학(Software Engineering, SE) 분야에서 지속적인 도전 과제로 남아 있다. 자동화된 환경 설정 방법은 개발자가 수동 작업 없이 임의의 리포지토리에 대해 완전히 구성된 개발 환경을 제공받을 수 있도록 지원할 수 있으며, 이는 SE 연구자들이 실행 기반 벤치마크를 보다 규모 있게 수행하는 데에도 기여한다. 그러나 최근 연구 결과에 따르면, 최신 기술 수준의 대규모 언어 모델(Large Language Models, LLMs)조차도 이 작업의 자동화에 한계를 보이고 있다. 이러한 제약을 극복하기 위해 우리는 환경 설정에 특화된 모델을 튜닝하였다. 본 연구에서는 정확한 Bash 스크립트를 생성하기 위한 지도형 미세조정(supervised fine-tuning)과, 검증 가능한 보상(Verifiable Rewards)을 활용한 강화학습(Reinforcement Learning with Verifiable Rewards, RLVR)을 결합하여 환경 설정 작업에 적합한 모델을 개발하였다. 실험 결과, EnvBench-Python 기준에서 본 방법을 적용한 Qwen3-8B(소비자용 하드웨어에서 실행 가능한 모델)가 더 큰 규모의 모델인 Qwen3-32B 및 GPT-4o와 경쟁 가능한 성능을 보였다. 학습 코드와 모델 체크포인트는 공개되어 있으며, 다음 링크에서 확인할 수 있다: https://github.com/JetBrains-Research/PIPer.