13 小时前

Vaishnavi Shrivastava Piero Kauffmann Ahmed Awadallah Dimitris Papailiopoulos

摘要

CLI Agent 是语言模型最接近具身智能（embodied setting）的场景：模型发出命令，终端执行这些命令，而返回的数据流——包括标准输入（stdin）、错误信息、文件内容、日志及追踪记录——则记录了执行后果。我们认为，这种返回流本质上是一种监督信号，但标准的 Agent 强化学习方法（RL）却丢弃了它：GRPO 风格的训练仅基于稀疏的结果级奖励更新动作 token，而忽略了 rollout 中已经存在的环境响应。尽管失败的经验回放（rollouts）包含了关于环境如何响应的丰富证据，但由于缺乏环境反馈，它们提供的策略梯度信号微乎其微。为此，我们引入了 ECHO（Environment Cross-entropy Hybrid Objective，环境交叉熵混合目标）。这是一种混合目标函数，它将动作 token 上的标准策略梯度损失与辅助损失相结合，辅助损失旨在训练策略模型预测由其自身动作引发的环境观测 token。ECHO 复用了 GRPO 的前向传播过程，无需额外的 rollout，并将终端反馈转化为针对所有 rollout 的密集监督信号。在 TerminalBench-2.0 上，ECHO 使 GRPO 的 pass@1 性能翻倍：Qwen3-8B 从 2.70% 提升至 5.17%，Qwen3-14B 从 5.17% 提升至 10.79%。此外，ECHO 生成的策略能更好地预测终端动态，即使是在其未生成的轨迹上也是如此：在未参与训练的 hold-out rollout 中，ECHO 显著降低了环境 token 的交叉熵，而仅使用 GRPO 时该指标几乎未发生变化。

一句话总结

ECHO（Environment Cross-entropy Hybrid Objective）使终端 Agent 能够通过结合标准策略梯度损失与预测环境观察 token 的辅助损失来学习世界模型，将终端反馈转化为密集监督而无需额外 rollout，使 Qwen3-8B 在 TerminalBench-2.0 上的 GRPO pass@1 从 2.70% 提升至 5.17%，Qwen3-14B 从 5.17% 提升至 10.79%，同时在保留 rollout 上降低了环境 token 交叉熵。

核心贡献

本研究提出了 ECHO，一种用于 CLI Agent 的混合目标，结合标准策略梯度损失与预测结果环境观察 token 的辅助损失。该方法重用与 GRPO 相同的前向传播，无需额外 rollout，有效地将终端反馈转化为所有轨迹的密集监督。
与依赖评估器或独立世界建模阶段的方法不同，所提出的方法直接将观察预测注入到 on-policy GRPO 中，使用原始环境观察 token。这种设计消除了对独立语料库或动力学模型的需求，同时利用现有的对话记录数据作为上下文。
在 TerminalBench-2.0 上的评估显示，ECHO 使 GRPO pass@1 分数翻倍，将 Qwen3-14B 从 5.17% 提升至 10.79%。训练后的策略也能更好地预测终端动力学，与单独使用 GRPO 相比，在保留 rollout 上显著降低了环境 token 交叉熵。

引言

在由大型语言模型驱动的终端 Agent 背景下，学习有效策略通常受到环境交互期间稀疏奖励信号的阻碍。先前的方法尝试通过辅助预测或世界模型来密集化学习，但它们通常依赖独立的训练阶段、外部评估器或复杂的动力学模型来生成必要的监督。作者利用 Agent 对话记录中已有的终端观察，将辅助交叉熵损失直接注入到 on-policy GRPO 中。该策略消除了对独立语料库或反馈生成器的需求，同时提供直接源自环境字面响应的密集监督。

数据集

数据集组成与来源
- 作者从 Endless Terminals 和 OpenThoughts-Agent-v1-RL 中构建了包含 2700 个精选终端任务的训练语料库。
- 他们通过修改后的 Endless Terminals 流程生成了 6170 个额外任务以扩展此池。
- 最终集合包含 8870 个专注于数据处理、系统操作和开发工具的任务。
过滤与选择标准
- 初始过滤排除了涉及分析、计算、专用应用、基础设施、网络化和复杂 bash 的领域。
- 仅当 GPT-5 在至少 16 次尝试中的某一次内解决任务时，才保留该任务。
数据划分与使用
- 训练集包含 8770 个用于模型优化的任务。
- 单独保留 100 个任务用于分布内验证，命名为 val100。
- 评估基准包括 TerminalBench-2.0 和 OpenThoughts-TBLite 以及内部集合。
环境与处理细节
- 回合在由 Harbor 框架编排的 Docker 容器中运行。
- 限制设置为每回合 16 轮，16k 上下文窗口。
- 验证使用单元测试，Agent 超时 10 分钟，验证器超时 2 分钟。
- 该流程处理任务规范、Dockerfile 生成和 Harbor 格式导出。

方法

ECHO 方法引入了一种混合目标，旨在利用环境反馈作为终端 Agent 强化学习期间的密集监督信号。标准训练流程通常仅对助手动作 token 应用损失函数，忽略了终端响应中包含的丰富信息。ECHO 通过添加环境观察 token 上的辅助交叉熵损失来增强此过程。

训练框架在交错系统提示、用户任务、助手动作和环境观察的多轮 rollout 序列上运行。策略根据先前对话记录生成动作，环境则响应输出，如 stdout、stderr 或文件内容。如下面的框架图所示：

总损失函数结合了标准策略梯度项与环境预测项。GRPO 组件针对动作位置 $\mathcal{A}$ ，并依赖源自稀疏结果奖励的组归一化优势。当优势为零时，该项被静音。同时，环境损失针对观察位置 $\mathcal{O}$ ，并训练策略预测其动作导致的终端输出。该组件在每次 rollout 上保持活动。组合目标定义为：

\mathcal{L}_{\mathrm{ECHO}} = \mathcal{L}_{\mathrm{GRPO}}(\mathcal{A}) + \lambda \mathcal{L}_{\mathrm{env}}(\mathcal{O})

其中 $\lambda$ 是混合系数。此公式确保失败的 rollout 仍有助于学习，通过教导模型终端如何响应特定命令。

从实现角度来看，该方法通过重用相同的前向传播来保持计算效率。模型一次计算整个序列的 logits。然后训练循环应用不同的掩码到这些 logits 以计算相应的损失项。这种方法避免了对额外 rollout 或独立教师模型的需求。关于目标选择，该方法特别排除了测试框架中的低熵警告 token，将环境损失集中在提供特定任务反馈的实际命令输出上。

实验

实验评估了 ECHO 与 GRPO 基线和专家 SFT 初始化在多个基准上的表现，以验证终端交互和学习效率的改进。结果表明，ECHO 通过学习可迁移的动力学，一致地提高了任务成功率和终端预测准确率，这减少了对专家演示的依赖，同时实现了更快的训练收敛。此外，无验证器适应测试证实，仅环境预测即可在具有信息丰富反馈的任务上推动策略改进，支持了 Agent 可以在没有显式奖励信号的情况下从终端后果中有效学习的结论。

该表格通过比较 ECHO 和 GRPO 在不同模型配置下达到最佳内部分数所需的步数来评估训练效率。ECHO 在 Qwen3-8B 模型上显示出显著的速度优势，在聚合和困难的分布外任务上比 GRPO 基线收敛快得多。相比之下，较大的 Qwen3-14B 模型没有显示出基于步数的加速，两种方法在同一训练步数达到峰值性能。ECHO 显著加速了 Qwen3-8B 模型的训练，在比 GRPO 少得多的步数内达到峰值性能。虽然 OT-SFT 初始化在聚合指标上受益于 ECHO，但在特定的 TBLite 基准上比 GRPO 收敛慢。对于 Qwen3-14B 模型，ECHO 和 GRPO 在相同的步数计数下达到最佳内部分数，表明较大模型的收敛速度进入平台期。

研究团队评估了无验证器适应，其中模型仅通过预测终端输出 token 进行学习，无需奖励信号。结果表明，当过滤干净的工具调用时，这种方法成功提高了分布内任务和特定分布外基准（如 PyTerm 和 ITD）的性能。然而，该方法未能提高 TBLite 基准的性能，表明有效性取决于环境反馈的密度和动作链接。无验证器适应仅使用环境预测提高了分布内性能。过滤干净的工具调用使得在 PyTerm 和 ITD 等分布外任务上获得显著提升，同时不降低基础性能。该方法在 TBLite 上降低了性能，可能是由于与其他基准相比，直接动作反馈链接较少。

该表格比较了使用标准 GRPO、提出的 ECHO 方法和专家 SFT 初始化的 Qwen3-8B 模型的性能。结果表明，ECHO 在所有内部和外部基准上一致地优于标准 GRPO 基线。此外，ECHO 显著缩小了相对于专家 SFT 模型的性能差距，在内部评估中恢复了大部分优势，在外部基准上恢复了约一半。ECHO 在所有内部和外部基准上一致地优于标准 GRPO 基线。该方法在内部评估中恢复了专家 SFT 初始化提供的几乎所有性能优势。ECHO 在 TerminalBench-2.0 指标上缩小了约一半的专家 SFT 性能差距。

作者展示了结果显示，ECHO 方法在多种模型大小上始终优于基础策略和 GRPO 基线的任务成功率。ECHO 在 TerminalBench-2.0 和内部评估上取得了显著提升，在内部指标上匹配了专家 SFT 初始化的性能，而无需专家演示。ECHO 在所有内部评估和 TerminalBench-2.0 基准上始终优于 GRPO 和基础模型。与标准 GRPO 基线相比，该方法使 TerminalBench-2.0 pass@1 率几乎翻倍。ECHO 在内部评估中恢复了专家 SFT 初始化提供的几乎所有性能增益。

作者比较了 GRPO 基线和 ECHO 方法在不同模型配置下的推理效率指标，包括超时率、轮数和 token。结果表明，ECHO 通常通过减少超时和 token 使用来提高效率，特别是对于较小和 SFT 初始化的模型。与 GRPO 基线相比，ECHO 显著降低了 Qwen3-8B 和 OT-SFT 模型的超时率和平均轮数。所有模型变体的 token 消耗均减少，其中 Qwen3-8B 配置下降最明显。虽然 Qwen3-14B 模型经历了超时和轮数的轻微增加，但仍实现了总 token 使用量的减少。

实验评估了 ECHO 方法与 GRPO 基线和专家 SFT 初始化，以评估训练效率、任务性能和推理指标。ECHO 在所有内部和外部基准上一致地优于标准 GRPO，同时在内部评估中恢复了专家 SFT 提供的性能优势的大部分，而无需专家演示。虽然训练收敛在较小模型上加速，并且通过减少 token 使用提高了推理效率，但无验证器适应在特定分布外任务上显示出有效性，但在动作反馈链接较弱的情况下表现不佳。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

13 小时前

Vaishnavi Shrivastava Piero Kauffmann Ahmed Awadallah Dimitris Papailiopoulos

摘要

一句话总结

核心贡献

本研究提出了 ECHO，一种用于 CLI Agent 的混合目标，结合标准策略梯度损失与预测结果环境观察 token 的辅助损失。该方法重用与 GRPO 相同的前向传播，无需额外 rollout，有效地将终端反馈转化为所有轨迹的密集监督。
与依赖评估器或独立世界建模阶段的方法不同，所提出的方法直接将观察预测注入到 on-policy GRPO 中，使用原始环境观察 token。这种设计消除了对独立语料库或动力学模型的需求，同时利用现有的对话记录数据作为上下文。
在 TerminalBench-2.0 上的评估显示，ECHO 使 GRPO pass@1 分数翻倍，将 Qwen3-14B 从 5.17% 提升至 10.79%。训练后的策略也能更好地预测终端动力学，与单独使用 GRPO 相比，在保留 rollout 上显著降低了环境 token 交叉熵。

引言

数据集

数据集组成与来源
- 作者从 Endless Terminals 和 OpenThoughts-Agent-v1-RL 中构建了包含 2700 个精选终端任务的训练语料库。
- 他们通过修改后的 Endless Terminals 流程生成了 6170 个额外任务以扩展此池。
- 最终集合包含 8870 个专注于数据处理、系统操作和开发工具的任务。
过滤与选择标准
- 初始过滤排除了涉及分析、计算、专用应用、基础设施、网络化和复杂 bash 的领域。
- 仅当 GPT-5 在至少 16 次尝试中的某一次内解决任务时，才保留该任务。
数据划分与使用
- 训练集包含 8770 个用于模型优化的任务。
- 单独保留 100 个任务用于分布内验证，命名为 val100。
- 评估基准包括 TerminalBench-2.0 和 OpenThoughts-TBLite 以及内部集合。
环境与处理细节
- 回合在由 Harbor 框架编排的 Docker 容器中运行。
- 限制设置为每回合 16 轮，16k 上下文窗口。
- 验证使用单元测试，Agent 超时 10 分钟，验证器超时 2 分钟。
- 该流程处理任务规范、Dockerfile 生成和 Harbor 格式导出。

方法

\mathcal{L}_{\mathrm{ECHO}} = \mathcal{L}_{\mathrm{GRPO}}(\mathcal{A}) + \lambda \mathcal{L}_{\mathrm{env}}(\mathcal{O})

其中 $\lambda$ 是混合系数。此公式确保失败的 rollout 仍有助于学习，通过教导模型终端如何响应特定命令。

实验

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

ECHO：终端代理免费学习世界模型

Vaishnavi Shrivastava Piero Kauffmann Ahmed Awadallah Dimitris Papailiopoulos

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

ECHO：终端代理免费学习世界模型

Vaishnavi Shrivastava Piero Kauffmann Ahmed Awadallah Dimitris Papailiopoulos

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

ECHO：终端代理免费学习世界模型

Vaishnavi Shrivastava Piero Kauffmann Ahmed Awadallah Dimitris Papailiopoulos

摘要

一句话总结

核心贡献

引言

数据集

方法

实验

用 AI 构建 AI

HyperAI Newsletters