Command Palette

Search for a command to run...

한 달 전

PIPer: 온디바이스 환경 설정을 위한 온라인 강화 학습

Alexander Kovrigin Aleksandra Eliseeva Konstantin Grotov Egor Bogomolov Yaroslav Zharov

PIPer: 온디바이스 환경 설정을 위한 온라인 강화 학습

초록

환경 설정은 특정 소프트웨어 프로젝트와 시스템을 원활하게 연동하기 위해 시스템을 구성하는 과정으로, 소프트웨어 공학(Software Engineering, SE) 분야에서 지속적인 도전 과제로 남아 있다. 자동화된 환경 설정 방법은 개발자가 수동 작업 없이 임의의 리포지토리에 대해 완전히 구성된 개발 환경을 제공받을 수 있도록 지원할 수 있으며, 이는 SE 연구자들이 실행 기반 벤치마크를 보다 규모 있게 수행하는 데에도 기여한다. 그러나 최근 연구 결과에 따르면, 최신 기술 수준의 대규모 언어 모델(Large Language Models, LLMs)조차도 이 작업의 자동화에 한계를 보이고 있다. 이러한 제약을 극복하기 위해 우리는 환경 설정에 특화된 모델을 튜닝하였다. 본 연구에서는 정확한 Bash 스크립트를 생성하기 위한 지도형 미세조정(supervised fine-tuning)과, 검증 가능한 보상(Verifiable Rewards)을 활용한 강화학습(Reinforcement Learning with Verifiable Rewards, RLVR)을 결합하여 환경 설정 작업에 적합한 모델을 개발하였다. 실험 결과, EnvBench-Python 기준에서 본 방법을 적용한 Qwen3-8B(소비자용 하드웨어에서 실행 가능한 모델)가 더 큰 규모의 모델인 Qwen3-32B 및 GPT-4o와 경쟁 가능한 성능을 보였다. 학습 코드와 모델 체크포인트는 공개되어 있으며, 다음 링크에서 확인할 수 있다: https://github.com/JetBrains-Research/PIPer.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
PIPer: 온디바이스 환경 설정을 위한 온라인 강화 학습 | 연구 논문 | HyperAI초신경