1 个月前

PIPer：通过在线强化学习实现设备端环境配置

Alexander Kovrigin Aleksandra Eliseeva Konstantin Grotov Egor Bogomolov Yaroslav Zharov

摘要

环境配置——即为特定软件项目设置系统运行环境的过程——一直是软件工程（Software Engineering, SE）领域长期存在的挑战。自动化环境配置方法可通过无需人工干预的方式，为任意代码仓库提供完整配置的开发环境，从而帮助开发者提升效率。同时，这类方法也有助于软件工程研究人员扩展基于执行的基准测试规模。然而，近期研究表明，即使是最先进的大语言模型（Large Language Models, LLMs）在自动化该任务方面也仅取得有限成效。为克服这一局限，我们针对环境配置任务训练了一个专用模型。该方法结合了监督微调（supervised fine-tuning），以生成正确的 Bash 脚本，以及基于可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards, RLVR），以提升模型在环境配置任务上的适应能力。在 EnvBench-Python 基准测试中，我们的方法使 Qwen3-8B（一种可在消费级硬件上运行的模型）的表现达到与更大规模模型 Qwen3-32B 和 GPT-4o 相当的水平。训练代码与模型检查点已公开：https://github.com/JetBrains-Research/PIPer。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

PIPer：通过在线强化学习实现设备端环境配置

Alexander Kovrigin Aleksandra Eliseeva Konstantin Grotov Egor Bogomolov Yaroslav Zharov

摘要

用 AI 构建 AI

Hyper Newsletters