Command Palette
Search for a command to run...
Qwen-AgentWorld:面向通用 Agent 的语言世界模型
Qwen-AgentWorld:面向通用 Agent 的语言世界模型
摘要
世界模型基于当前观测与动作预测环境动态,是推理与规划的核心认知机制。在本研究中,我们探讨了基于语言模型的世界建模如何进一步拓展通用agent的边界。(i)我们首先专注于构建用于agent环境模拟的基础模型。我们推出了Qwen-AgentWorld-35B-A3B与Qwen-AgentWorld-397B-A17B,这是首批能够通过长思维链推理模拟涵盖7个领域的agent环境的语言世界模型。利用真实环境中7个领域的超过1000万条环境交互轨迹,我们通过三阶段训练流程开发了Qwen-AgentWorld:CPT从状态转移动态与增强型专业语料库中注入通用世界建模能力,SFT激活下一步状态预测推理,RL则通过带有混合评分标准与规则奖励的定制框架提升模拟保真度。为评估语言世界模型,我们提出了AgentWorldBench,这是一个综合基准测试,由5个前沿模型在9个既定基准测试上的真实交互数据构建而成。实证结果表明,Qwen-AgentWorld显著优于现有前沿模型。(ii)除基础模型外,我们进一步探讨了世界建模增强通用agents的两种互补范式。首先,作为解耦的环境模拟器,Qwen-AgentWorld支持对数千个真实环境进行可扩展且可控的模拟,以用于agent RL,其带来的性能提升超越了仅依靠真实环境训练的效果。其次,作为统一的agent基础模型,世界模型训练作为一种高度有效的预热手段,提升了在7个agent基准测试上的下游性能。代码:https://github.com/QwenLM/Qwen-AgentWorld
一句话总结
Owen团队推出了Qwen-AgentWorld-35B-A3B和Qwen-AgentWorld-397B-A17B,这是首批通过长思维链推理模拟七个真实世界agent环境领域的语言世界模型,其训练基于超过一千万条轨迹,采用包含CPT、SFT和RL的三阶段流程,并配有混合评分标准与规则奖励,在AgentWorldBench上相较于现有前沿模型取得了显著提升;AgentWorldBench是一个综合性的五维度评分标准基准,基于五个前沿模型在九个已确立的基准(包括Tool Decathlon、Terminal-Bench 1.0和2.0,以及OSWorld-Verified)上的交互构建,这些模型还支持可扩展的解耦仿真用于agent RL,超越了纯粹的真实环境训练,并提供了统一的基础模型热身,提升了七个agent基准上的下游表现。
核心贡献
- 论文介绍了Qwen-AgentWorld-35B-A3B和Qwen-AgentWorld-397B-A17B,这是首批通过长思维链推理模拟七个agent环境领域的语言世界模型,其训练基于超过一千万条真实世界交互轨迹,采用结合持续预训练、监督微调以及带混合评分标准与规则奖励的强化学习的三阶段流程。
- 本工作提出了AgentWorldBench,一个综合基准,利用五个前沿模型在九个已确立测试平台上的交互构建,通过基于真实情况的评分标准在五个维度上评估世界建模质量。
- 研究表明,使用Qwen-AgentWorld作为解耦环境模拟器可实现可扩展的agent强化学习,其收益超越纯粹的真实环境训练,并且世界模型训练作为有效热身,在作为统一agent基础模型时,提升了七个agent基准上的下游表现。
引言
训练自主agent通常需要大量的交互数据,但真实环境速度慢、成本高或难以访问。模拟环境响应的语言世界模型可以更便宜、更快地扩大训练规模,然而以往的方法大多在agent轨迹上微调通用LLM。这些方法仅模拟一个或少数几个领域,往往保真度不可靠且可控性有限。作者推出了Qwen-AgentWorld,这是一种原生语言世界模型,从零开始在覆盖七个agent领域的轨迹上进行预训练,并通过持续预训练、监督微调和强化学习的三阶段流程进行优化。这种设计产出了一个提供高保真、可控仿真的单一基础模型。他们进一步展示了两个互补优势:将世界模型与agent解耦,使得仿真训练(Sim RL)能够匹配或超越真实环境训练,同时使用世界模型对agent进行预训练显著提升了其下游表现。
数据集
语言世界模型的训练数据
-
来源与组成
作者从三个互补管线收集环境轨迹,覆盖七个领域:软件工程(SWE)、终端、搜索、MCP工具使用、Android、浏览器和桌面操作系统。- 专用agent基础设施 – 容器化沙箱、MCP服务器、持久化shell会话以及将观察表示为无障碍树或视图层次结构的GUI环境(Android虚拟机、浏览器、桌面操作系统)。该持续运行的管线自动合成任务查询并端到端执行,提供可控、可复现的交互数据。
- 开放交互轨迹 – 公开的终端会话记录、开源的agent工具调用日志和执行轨迹。一个多agent清洗管线负责获取、去噪、分割、语义对齐和质量评分;只有通过所有阶段的序列才能进入数据池,从而捕获罕见的shell工作流和错误模式。
- 内部agent轨迹 – 在内部基础模型SFT开发过程中积累的agent数据,转换为统一的轨迹格式。
三个训练阶段的数据池严格分开:
- CPT 使用专用基础设施生成的轨迹、开放轨迹和专门领域知识语料。
- SFT 和 RL 仅使用内部的、内部轨迹。
-
每个来源的关键细节和过滤规则
- 轨迹级过滤:丢弃少于两轮的序列;丢弃调用声明动作空间以外工具的MCP/SWE轨迹;排除受环境故障(缺少状态文件、CAPTCHA、HTTP错误)影响而破坏因果动作-观察链的GUI轨迹。
- 轮次级过滤:去除空动作轮次(暂停或叙述)。
- 重试循环跳过 – 折叠“无用输出 → 错误 → 重试”循环,同时保留环境状态,使得下一个有效轮次继承正确的历史。
- GUI领域的无变化轮次过滤 – 移除动作前后状态相同的轮次(通常由延迟引起),防止模型学习盲目复制上一观察。
- 轮次扩展 – 每条轨迹扩展为轮次级预测样本:对于一条包含T轮的轨迹,任何轮次t都可以作为目标,并以之前的历史和当前动作为输入。对于最终训练分割,作者随机对每条轨迹采样一轮以多样化目标。
-
系统提示构建与元数据
每个样本遵循统一模式:系统提示(任务描述、动作空间、可选的初始状态、演示、可选的仿真指令)加上交替的动作/观察轮次。- 静态组件(动作空间、演示)在除MCP和SWE之外的轨迹间共享,因为MCP和SWE的动作空间因服务器实例或仓库的工具不同而因轨迹而异。
- 动态组件(初始状态、仿真指令)按轨迹填充。对于GUI,初始状态有意多样化;对于搜索和终端,部分数据携带输出控制的仿真指令,以实现可控仿真。
- 提示模板并非手工制作。一个自动化研究循环(AutoResearch)迭代改进候选:一个优化器agent分析在留出轨迹上的失败,修订提示,并针对真实环境响应重新评估预测准确性。十二次并行运行生成模板v0-v11,这些模板被分配给不相交的训练池(RL使用v0,CPT使用v1,SFT为每个样本随机从v2-v11采样),以实现提示格式多样性。
-
论文如何使用数据
所有数据被格式化为输入-目标对,其中模型根据全部先验交互和agent的当前动作预测下一个环境观察。- CPT 消费广泛的多源数据以热身启动世界模型。
- SFT 使用内部agent轨迹和提示模板v2-v11的混合进行微调。
- RL 进一步使用来自内部轨迹的策略片段和模板v0优化模型;由于RL可能放大伪影,作者对该数据池应用了最彻底的过滤。
-
评估:AgentWorldBench
为基准测试,作者从覆盖所有七个领域的已有agent基准上的前沿模型轨迹构建了2,170个评估样本,确保真实环境观察和分布外数据划分。- 轮次采样:文本域轨迹保留第一轮、最后一轮和三个均匀采样的中间轮次(每条轨迹五个评估轮次)。GUI域选择性采样更具挑战性的轮次,然后保留50%随机子集。
- 统计:SWE(21.8%)、搜索(21.1%)、终端(16.3%)、MCP(13.2%)、每个GUI域9.2%。平均上下文长度从约12.9k tokens(终端)到约59.3k tokens(MCP,由于系统提示中包含完整的工具模式)不等。
方法
作者提出了Qwen-AgentWorld,一个统一的原生语言世界模型,旨在模拟七个不同领域的agent环境:MCP服务器、搜索引擎、IDE、终端/CLI、Android系统、Web浏览器和操作系统。通过将这些领域统一在共享的文本表示下,该模型实现了语言世界建模的跨领域泛化。
除了作为基础模型,作者还研究了两种互补的范式,将世界建模应用于增强语言agent。在“解耦”策略中,世界模型作为环境模拟器用于可扩展的agent RL(Sim RL)。这使agent训练能够扩展到真实环境无法提供的领域和条件,例如生成受控对抗环境。在“统一”策略中,世界模型本身作为agent基础模型。此时,世界模型训练充当了一种高度有效的热身,提升了agent任务的下游表现,并能令人惊讶地泛化到没有工具调用的任务。
训练流程
Qwen-AgentWorld以环境建模为明确目标,从持续预训练开始进行端到端训练。作者采用三阶段流程,概括为“CPT注入、SFT激活、RL磨砺”。
阶段1:持续预训练(CPT) CPT的目标是将环境世界知识和广泛的事实知识注入模型。训练数据包括环境交互轨迹和覆盖工业控制、网络安全、医学等专业领域的专门领域世界知识语料。模型在标准的下一个token预测目标下训练。多轮环境轨迹被构造成世界建模任务,其中系统提示定义模拟上下文,用户轮次携带agent的动作,助理轮次携带环境响应。这直接将语言建模目标映射到 p(ot+1∣o≤t,a<t)。
为解决来自样板轮次(例如工具简单回显其输入)的低质量梯度问题,作者引入了轮次级信息论损失掩码。他们为每个(动作,观察)对计算四个统计量:重叠度(OL)、新颖性(Nov)、Jaccard系数(Jac)和长度比(R)。这些统计量将轮次划分为七个语义类别,以识别携带真实世界知识的轮次。被掩码的轮次从损失计算中排除,但作为后续轮次的上下文保留。这有效地将学习下一个状态与学习下一个token解耦。
阶段2:监督微调(SFT) 虽然CPT通过下一个token预测教会模型隐式状态转移,SFT则显式激活下一个状态预测作为一种推理模式。作者从非思考轨迹转向包含显式推理链的思考轨迹。该阶段使用256k token上下文窗口以容纳长的多步轨迹。
数据管理过程涉及提示模板多样化和拒绝采样。每个样本的默认系统提示被替换为从10个模板变体中随机抽取的一个,以提高泛化能力。对于每个查询,从一个通用推理模型生成多个rollout,并由独立评审打分。通过拒绝采样选择质量最高的轨迹,确保模型学习鲁棒的状态转移推理,减少幻觉并提高一致性。
阶段3:强化学习(RL) 最后阶段使用混合评分标准与规则奖励来提高仿真逼真度。奖励设计结合了两个互补信号:
- **五维评分标准(LLM评审):**预测的观察由LLM评审在五个维度上评分:格式、事实性、一致性、真实性和质量。每个维度按1-5分制评分,总奖励是平均值乘以5。这解决了精确匹配不可行的开放式评估需求。
- **基于规则的验证器:**部分数据携带可执行的验证器代码,产生二值0/1正确性信号,并缩放至与评分标准范围对齐。这作为一个客观锚点,以减轻由开放式奖励引起的奖励作弊。
信号按9:1比例组合。一个多策略JSON解析器确保只有预测的观察到达评审,防止推理中的自我表扬影响得分。
为了展示Android领域的仿真能力,模型接受如tap(element="Buy Now")这样的动作并预测下一个状态。模型输出表示UI结构的HTML表示,捕捉状态转移。然后对该输出进行渲染,显示仿真的下一个状态,例如在原产品页面上出现“快速结账”模态。
终端领域的系统提示结构举例说明了模型如何为此类任务设定条件。它包含跨轨迹共享的静态组件,如任务描述将角色定义为精确的终端状态模拟器,动作空间将用户动作定义为JSON数组。动态组件,如初始状态(容器快照)和仿真指令(如磁盘空间限制等特定约束),按轨迹注入。这种结构确保模型理解其所仿真环境的具体约束和上下文。
实验
Qwen-AgentWorld,一个通过三阶段流程训练的原生语言世界模型,在AgentWorldBench上跨七个领域使用开放式评分标准进行评估,将预测与真实观察进行比较。该模型达到了最高的整体仿真保真度,在解耦模拟器角色中,其可控性使目标扰动和虚构世界训练成为可能,这些训练超越了在搜索和工具使用基准上的真实环境RL。在统一agent架构中,单轮世界模型热身传递到多轮、工具调用的任务,覆盖多样化基准,分析将收益归因于agent学习到的内部预测环境响应然后再行动的能力,从而将语言世界建模确立为扩展通用agent的基础轴。
作者评估了使用语言世界模型进行可控仿真对agent训练的影响。没有控制指令的标准仿真无法提升性能,并且在某些基准上甚至由于基础不足而导致性能下降。引入目标控制指令显著提升了多个工具使用领域的性能,表明可控性对于有效的基于仿真的强化学习至关重要。可控仿真在Tool Decathlon和MCPMark基准上均带来了超越基线的显著提升,而标准仿真仅带来微不足道或为负的收益。性能增益在需要复杂工具交互的领域尤其显著,如文件系统操作、数据库查询和API集成。某些领域在受控仿真中未见提升,表明此方法的有效性因具体任务要求而异。
作者将其提出的语言世界模型与各种前沿和开放权重基线在文本和GUI领域进行了对比评估。结果表明,最大的提出模型达到了最高的总体平均性能,在文本环境中展现出特别的优势,同时在GUI领域也保持竞争力。此外,将提出模型与其基础模型检查点对比,显示出所有领域的一致性能提升,证实了世界模型训练流程的有效性。最大的提出模型在总体平均分上超越了所有前沿和开放权重基线。世界模型训练相比基础模型检查点,在文本和GUI领域均持续提升性能。提出模型在终端和软件工程等文本领域表现出最显著的优势。
该表格展示了七个领域的拒绝采样统计,详细列出了候选查询数量、质量过滤后的保留率、最终SFT样本数量以及每条轨迹的平均轮次数。Web领域拥有最多的候选和最终SFT样本,而终端领域达到了最高的保留率。SWE领域具有最长的平均轮次,而Web领域平均轮次最短。Web领域拥有最多的候选和最终SFT样本,但相比其他领域,保留率相对较低。终端领域在所有领域中实现了最高的保留率。SWE领域每条轨迹的平均轮次最长,而Web领域最短。
作者在七个文本和GUI领域的综合基准上对Qwen-AgentWorld进行评估,并与多个前沿模型进行比较。结果表明,最大的Qwen-AgentWorld模型实现了最高的总体性能,尤其在终端和软件工程等文本领域表现突出。此外,将训练后的模型与基础检查点进行对比,证实了世界模型训练流程持续提升了所有环境的仿真保真度。最大的Qwen-AgentWorld模型在总体平均分上超越了所有前沿基线,并在文本领域领先。应用世界模型训练流程相比基础检查点在文本和GUI领域均带来显著的性能增益。搜索领域对所有评估模型来说都是最具挑战性的,得分明显低于其他文本任务。
作者评估了将其语言世界模型用作分布外环境强化学习模拟器的有效性。结果显示,使用专用的世界模型模拟器进行训练,在两个评估基准上均带来了显著性能提升,而使用标准基线模型作为模拟器仅提供微弱改进。这证明高保真环境仿真对于有效的仿真强化学习至关重要。使用专用世界模型作为模拟器,相较于基础模型,在两个评估基准上均显著提升了agent性能。而标准基线模型作为模拟器未能产生有意义的增益,突显了专门的世界模型训练对仿真保真度的必要性。世界模型能够实现可扩展且可泛化的环境仿真,有效迁移到其训练数据中缺失的真实世界任务。
实验在三种配置下评估语言世界模型:用于agent训练的可控仿真、针对前沿和基础基线的内在保真度基准测试,以及在分布外环境中的强化学习。基于指令控制的可控仿真是获得有意义收益的关键,它在文件系统、数据库和API集成等复杂工具交互上带来了巨大提升,而标准仿真则使其性能下降或收益甚微。在直接的模拟器评估中,世界模型训练流程相比基础检查点持续提升性能,最大模型取得了最高分数,并在终端和软件工程等文本领域表现突出,尽管搜索领域仍然是最大的挑战。对于强化学习,只有专用的世界模型模拟器带来了显著的性能提升,而标准基线模拟器的收益微乎其微,这证实了高保真仿真对于有效的仿真训练至关重要。