Command Palette
Search for a command to run...

摘要
人类天生具备适应多样化环境的能力,能够通过学习跨越不同动力学特征、观测方式和奖励结构的世界中的潜在规则来做出调整。相比之下,现有的智能体(Agent)通常仅在单一领域内通过自我进化来实现能力提升,这种做法隐式地假设了环境分布是固定的。目前的跨环境学习(Cross-environment learning)领域在很大程度上仍缺乏评估手段:既缺乏由可控、异构环境组成的标准集合,也缺乏描述智能体学习机制的统一方法。我们分两步来填补这些空白。首先,我们提出了 AutoEnv,这是一个自动化框架,将环境建模为状态转移、观测和奖励的可分解分布,从而能够以低成本(平均 4.12 美元)生成异构的虚拟世界。基于 AutoEnv,我们构建了 AutoEnv-36 数据集,其中包含 36 个环境和 358 个经过验证的关卡。七种语言模型在该数据集上仅取得了 12-49% 的归一化奖励,充分证明了 AutoEnv-36 具有高度的挑战性。其次,我们将智能体学习形式化为一种以组件为中心的过程,该过程针对可改进的智能体组件,由选择(Selection)、优化(Optimization)和评估(Evaluation)三个阶段驱动。基于这一形式化定义,我们设计了八种学习方法,并在 AutoEnv-36 上进行了评估。实验结果表明,随着环境数量的增加,任何单一学习方法的收益都会迅速下降,这揭示了固定的学习方法无法有效地扩展至异构环境。虽然由于环境自适应选择(environment-adaptive selection)学习方法能显著提升性能,但在方法空间持续扩展时,其表现出收益递减的趋势。这些结果既凸显了智能体学习在实现可扩展的跨环境泛化方面的必要性,也暴露了其当前的局限性,并将 AutoEnv 和 AutoEnv-36 确立为研究跨环境智能体学习的重要测试平台。代码已在 https://github.com/FoundationAgents/AutoEnv 开源。
总结
香港科技大学(广州)、DeepWisdom 等机构的研究人员提出了 AutoEnv,这是一个自动化框架,将环境视为可分解的分布,以高效生成异构的 AutoEnv-36 数据集,从而建立一个统一的测试平台,用于衡量和形式化跨不同领域的智能体学习可扩展性。
引言
开发能够像人类从棋盘游戏过渡到现实世界任务那样跨不同环境适应的智能体,仍然是人工智能面临的一个关键挑战。虽然最近的语言智能体在编程或网络搜索等特定领域表现良好,但它们的成功在很大程度上依赖于人工设计的训练数据和狭窄的规则集。目前的进展受到两个基础设施差距的阻碍:缺乏具有异构规则的可扩展环境集合,以及缺乏代表智能体如何学习的统一框架。现有的基准依赖于无法测试跨环境泛化能力的小型手工制作集,而学习方法仍然是难以系统比较的孤立临时脚本。
为了弥合这一差距,作者推出了 AutoEnv,这是一个能够生成多样化可执行环境的自动化框架,同时还提出了以组件为中心的智能体学习的形式化定义。
关键创新包括:
- 自动化环境生成: 该系统使用多层抽象过程创建 AutoEnv-36,这是一个包含 36 个不同环境和 358 个经过验证关卡的数据集,平均每个环境的成本仅为 4.12 美元。
- 统一学习形式化: 研究人员将智能体学习定义为一个涉及选择(Selection)、优化(Optimization)和评估(Evaluation)的结构化过程,允许在单个配置空间内比较不同的策略(如提示词优化或代码更新)。
- 跨环境分析: 实证结果表明,随着环境多样性的增加,固定的学习策略产生的收益递减,这凸显了针对特定规则分布定制学习组件的自适应方法的必要性。
数据集
数据集构成与来源
- 作者推出了 AutoEnv-36,这是一个由 36 个不同的强化学习环境组成的基准数据集。
- 这些环境源自使用 AutoEnv 框架生成的 100 个主题的初始池,主要利用纯文本 SkinEnv 渲染。
- 虽然主数据集侧重于基于文本的交互,但作者也通过集成编程智能体与图像生成模型,探索了多模态生成。
子集详情与过滤
- 验证过程: 最初的 100 个环境经过了三阶段验证流程,产生了 65 个可行候选者。
- 选择标准: 最终选出的 36 个环境旨在最大化规则类型和难度的多样性,过滤掉了对于有意义的评估来说过于简单或过于困难的任务。
- 奖励分布: 数据集在二元奖励(结束时的成功/失败)和累积奖励(随时间收集的分数)之间平均分配(50/50)。
- 可观察性: 环境倾向于部分可观察性(58.3%)而非完全可观察性(41.7%),以反映现实世界的信息约束。
- 语义对齐: 大多数环境(78.8%)使用对齐语义,即描述与规则相符,而一部分(22.2%)使用逆语义(例如,“毒药恢复生命值”)来测试对误导性指令的鲁棒性。
评估中的使用
- 论文利用该数据集评估智能体在特定能力维度上的表现,包括导航、记忆、资源控制、模式匹配和规划。
- 作者专门使用逆语义子集来强制智能体依赖交互而不是表面措辞。
- 环境呈现中等的结构复杂性,平均每个任务有 6.10 个可用动作和大约 471 行实现代码。
处理与元数据
- 文件结构: 每个环境都通过特定的元数据文件进行组织,包括 YAML 配置、Python 实现脚本、奖励计算逻辑和自然语言智能体指令。
- 标准化: 数据集采用统一的动作空间和观察接口,支持程序生成和固定关卡加载。
- 特征标记: 作者明确标记了每个环境所需的主要技能(如“多智能体”或“长程规划”),以促进详细的性能分析。
方法
作者利用以组件为中心的框架进行智能体学习,通过四个基本对象——候选者(candidate)、组件(component)、轨迹(trajectory)和指标(metric)——以及三个迭代阶段:选择、优化和评估来进行形式化。候选者代表智能体的一个版本,封装了其内部组件和相关元数据,如最近的轨迹和性能指标。组件是智能体可修改的部分,包括提示词、智能体代码、工具或底层模型。在与环境交互期间,候选者产生轨迹,然后用于计算一个或多个指标,如成功率或奖励。学习过程通过三个阶段进行:选择阶段根据指定规则(例如表现最佳或帕累托最优)从当前池中选择候选者;优化阶段使用优化模型修改所选候选者的目标组件,该模型分析候选者的结构、过去的轨迹和指标以提出编辑建议;评估阶段在环境中执行更新后的候选者以获得新轨迹并计算更新后的指标。该框架通过指定选择规则、优化方案和目标组件的不同组合,能够表达各种现有的学习方法,例如用于提示词优化的 SPO 和用于工作流优化的 AFlow。

环境生成过程被称为 \textscAutoEnv,遵循一个利用三层抽象来系统地创建和验证环境的管道。该过程始于环境主题,将其转化为详细的语言描述。然后,该描述被转换为基于 YAML 的领域特定语言(DSL),该语言指定 BaseEnv 的核心动力学、ObsEnv 的观察策略、SkinEnv 的渲染规则以及关卡生成器的配置。然后,编程智能体读取此 DSL 以实现三层类、关卡生成器和简明的智能体文档。初始代码经过自修复循环,智能体运行语法和执行测试,收集错误消息,并迭代编辑代码,直到测试通过或修复预算耗尽。最终输出是所有三层的可执行环境代码、关卡生成器和验证器。生成的环境经过三阶段验证管道:执行测试通过运行简单的 ReAct 风格智能体来确保运行时稳定性;关卡生成检查生成器是否可以生成具有目标可达性等属性的有效关卡;可靠性测试使用带有两个 ReAct 智能体的差分模型测试,以确保奖励结构是基于技能的而非随机的。该管道确保最终环境是可执行的,可以生成有效关卡,并提供可靠、非随机的奖励。

环境抽象结构化为三个不同的层,以支持系统生成和智能体交互。BaseEnv 层实现环境的核心动力学,包括状态空间、动作空间、转移函数、奖励函数和终止谓词,捕获基本规则并维护完整的世界状态。ObsEnv 层通过将可配置的观察策略应用于 BaseEnv 的底层状态和转移,专门化观察函数,决定向智能体暴露哪些信息。这允许控制信息可用性的变化,从完全可观察性到强部分可观察性。SkinEnv 层在 ObsEnv 之上应用渲染,将观察结果转换为面向智能体的模态,如自然语言文本或图像。这种分层设计使得相同的观察策略可以与不同的皮肤配对,创建对智能体来说语义上不同但共享相同底层规则的环境。附录中提供了这些层的代码实现,BaseEnv 定义真实状态、转移和奖励,ObsEnv 添加观察接口,SkinEnv 添加渲染接口,将语义观察转换为最终输入。

实验
- 环境生成分析: 评估了 AutoEnv 的 100 个主题,实现了 90.0% 的执行成功率和 96.7% 的关卡生成成功率,平均每个环境成本为 4.12 美元。人工审查主题通过减少规则不一致,将整体成功率从 60.0% 提高到 80.0%。
- 模型性能基准测试: 通过测试 7 个模型验证了 AutoEnv-36 作为能力基准的有效性;O3 实现了最高的归一化准确率(48.73%),超过了 GPT-5(46.80%),并显著优于 GPT-4o-mini(11.96%)。
- 语义反转控制: 进行了“皮肤反转(Skin Inverse)”实验,结果显示仅反转语义显示会导致 80% 的性能下降,这阐明了逆语义本质上增加了难度,并且原始逆环境中较高的分数源于更简单的结构生成。
- 学习方法多样性: 在使用 Qwen-2.5-7B 和 DeepSeek-V3.1 的 6 个环境子集上的实验揭示了强烈的环境-方法交互作用。在 DeepSeek-V3.1 上,使用 8 种方法的上限达到了 46.34%,超过了最佳单一方法性能 42.99%。
- 自适应学习潜力: 扩展到 36 个环境表明,单一学习方法相对于基线的收益微乎其微(42.40% vs 39.41%),而自适应上限达到了 47.75%,凸显了环境特定策略选择的必要性。
作者使用该表总结了 AutoEnv-36 基准中 36 个环境的特征,展示了环境的数量及其在不同奖励、观察和语义类型中的分布。结果表明,该基准包含一组多样化的环境,二元奖励和累积奖励各占总数的 50.0%,完全观察环境占 41.7%,对齐语义环境最为常见,占 78.8%。

作者使用该表评估了其 AutoEnv 生成管道在 100 个环境主题上的性能,区分了纯 LLM 生成(自动化)和人工审查(监督)的主题。结果表明,人工审查通过减少规则不一致显著将整体成功率从 60.0% 提高到 80.0%,同时也降低了生成成本。所有主题的总体成功率为 65.0%,其中执行成功率为 90.0%,关卡生成成功率为 96.7%,可靠性验证率为 74.7%。

结果显示,O3 实现了最高的性能,归一化准确率为 48.73%,其次是 GPT-5,为 46.80%,而 GPT-4o-mini 得分最低,为 11.96%。各模型之间的性能差距验证了该基准区分智能体能力的能力,其中二元奖励环境的表现优于累积奖励环境,完全观察环境的表现优于部分观察环境。

作者使用六个环境的子集来评估不同的学习方法,包括在 Qwen-2.5-7B 模型上的免训练方法和监督微调(SFT)。结果表明,通过为每个环境选择最佳方法实现的上限性能为 28.86%,显著高于最佳单一方法(SFT 为 25.09%),这表明最佳学习策略是特定于环境的,并且结合多种方法可以提高整体性能。

作者使用 DeepSeek-V3.1 在六个环境上评估了五种学习方法,比较了最佳选择(Best Selection)和帕累托选择(Pareto Selection)下的性能。结果表明,上限性能随着方法数量的增加而增加,但在四种方法后收益递减,最佳单一方法达到 38.71% 的准确率,而当结合所有方法时上限达到 46.34%。
