Command Palette

Search for a command to run...

2 个月前

CODA:面向解耦强化学习的双脑计算机使用Agent中大脑与小脑的协同机制

Zeyi Sun Yuhang Cao Jianze Liang Qiushi Sun Ziyu Liu Zhixiong Zhang et al

CODA:面向解耦强化学习的双脑计算机使用Agent中大脑与小脑的协同机制

摘要

面向图形用户界面(GUI)的自主代理在科学计算等专业领域面临重大挑战,这些领域既需要长周期规划能力,又要求精确执行。现有方法普遍存在权衡问题:通用型代理在规划方面表现优异,但在执行环节表现不佳;而专用型代理则恰恰相反。尽管近期一些组合式框架通过结合规划器与执行器尝试弥合这一差距,但它们通常为静态且不可训练的结构,无法从经验中进行适应,这在科学领域高质量数据稀缺的背景下尤为关键。为克服上述局限,我们提出CODA——一种新型可训练的组合式框架,该框架将通用型规划器(Cerebrum)与专用型执行器(Cerebellum)相结合,并通过专门设计的两阶段训练流程进行训练。在第一阶段“专业化”中,我们采用解耦的GRPO方法,针对每种科学应用独立训练一个专家规划器,初始时仅依赖少量任务轨迹进行引导。在第二阶段“泛化”中,我们将所有专业化专家产生的成功轨迹进行聚合,构建统一的数据集,并用于对最终规划器进行监督微调。这一机制使CODA兼具强大的执行能力与跨领域泛化性能。在ScienceBoard基准测试中的四个高难度应用场景上,CODA显著优于现有基线方法,并在开源模型中确立了新的性能标杆。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供