5 个月前

摘要

面向图形用户界面（GUI）的自主代理在科学计算等专业领域面临重大挑战，这些领域既需要长周期规划能力，又要求精确执行。现有方法普遍存在权衡问题：通用型代理在规划方面表现优异，但在执行环节表现不佳；而专用型代理则恰恰相反。尽管近期一些组合式框架通过结合规划器与执行器尝试弥合这一差距，但它们通常为静态且不可训练的结构，无法从经验中进行适应，这在科学领域高质量数据稀缺的背景下尤为关键。为克服上述局限，我们提出CODA——一种新型可训练的组合式框架，该框架将通用型规划器（Cerebrum）与专用型执行器（Cerebellum）相结合，并通过专门设计的两阶段训练流程进行训练。在第一阶段“专业化”中，我们采用解耦的GRPO方法，针对每种科学应用独立训练一个专家规划器，初始时仅依赖少量任务轨迹进行引导。在第二阶段“泛化”中，我们将所有专业化专家产生的成功轨迹进行聚合，构建统一的数据集，并用于对最终规划器进行监督微调。这一机制使CODA兼具强大的执行能力与跨领域泛化性能。在ScienceBoard基准测试中的四个高难度应用场景上，CODA显著优于现有基线方法，并在开源模型中确立了新的性能标杆。

源 PDF