Command Palette

Search for a command to run...

2 个月前

VerlTool:面向具工具使用的整体性智能体强化学习

VerlTool:面向具工具使用的整体性智能体强化学习

摘要

基于可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards, RLVR)在提升大语言模型(LLM)推理能力方面已取得显著成效,但其仍局限于单轮交互,且缺乏工具集成能力。尽管近期涌现出若干面向工具使用的代理式强化学习(Agentic Reinforcement Learning with Tool use, ARLT)方法,以应对多轮工具交互的挑战,但现有工作大多依赖于特定任务的代码库,存在系统碎片化、同步执行瓶颈以及跨领域扩展性差等问题。这些效率瓶颈严重制约了该技术在更广泛社区中的采纳与算法创新。为此,我们提出 VerlTool,一个统一且模块化的框架,通过系统化的设计原则有效克服上述局限。VerlTool 的核心贡献包括四个方面:(1)与 VeRL 框架在上游对齐,确保兼容性并简化维护;(2)通过标准化 API 实现统一的工具管理,支持多种模态,涵盖代码执行、网络搜索、SQL 数据库操作及视觉处理等;(3)采用异步 rollout 执行机制,通过消除同步瓶颈,实现接近 2 倍的加速;(4)在六个 ARLT 领域进行全面评估,验证了其具备与专用系统相媲美的竞争力表现。我们的框架将 ARLT 形式化为包含多模态观测标记(文本/图像/视频)的多轮轨迹,突破了传统单轮 RLVR 的范式限制。我们在数学推理、知识问答、SQL 生成、视觉推理、网页搜索以及软件工程等任务上训练并评估模型,取得了与专用系统相当的性能,同时提供统一的训练基础设施。其模块化的插件架构仅需轻量级 Python 定义即可实现快速工具集成,显著降低开发成本,为工具增强型强化学习研究构建了可扩展的基础平台。相关代码已开源,地址为:https://github.com/TIGER-AI-Lab/verl-tool。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VerlTool:面向具工具使用的整体性智能体强化学习 | 论文 | HyperAI超神经