Command Palette
Search for a command to run...
Alexander Kovrigin Aleksandra Eliseeva Konstantin Grotov Egor Bogomolov Yaroslav Zharov

摘要
环境配置——即为特定软件项目设置系统运行环境的过程——一直是软件工程(Software Engineering, SE)领域长期存在的挑战。自动化环境配置方法可通过无需人工干预的方式,为任意代码仓库提供完整配置的开发环境,从而帮助开发者提升效率。同时,这类方法也有助于软件工程研究人员扩展基于执行的基准测试规模。然而,近期研究表明,即使是最先进的大语言模型(Large Language Models, LLMs)在自动化该任务方面也仅取得有限成效。为克服这一局限,我们针对环境配置任务训练了一个专用模型。该方法结合了监督微调(supervised fine-tuning),以生成正确的 Bash 脚本,以及基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR),以提升模型在环境配置任务上的适应能力。在 EnvBench-Python 基准测试中,我们的方法使 Qwen3-8B(一种可在消费级硬件上运行的模型)的表现达到与更大规模模型 Qwen3-32B 和 GPT-4o 相当的水平。训练代码与模型检查点已公开:https://github.com/JetBrains-Research/PIPer。