Command Palette

Search for a command to run...

1 个月前

通过测试时分布级组合改进基于扩散或基于流的机器人策略

通过测试时分布级组合改进基于扩散或基于流的机器人策略

摘要

基于扩散模型的机器人控制方法,包括视觉-语言-动作(VLA)和视觉-动作(VA)策略,已展现出显著的能力。然而,其发展受限于大规模交互数据集获取的高昂成本。本文提出了一种替代性范式,可在无需额外模型训练的前提下提升策略性能。令人意外的是,我们证明了组合策略的性能可以超越任一父策略的性能。本工作的贡献主要体现在三个方面。首先,我们建立了理论基础,表明多个扩散模型的分布得分(distributional scores)进行凸组合后,能够产生优于任一单一得分的最优一步函数目标。随后,通过引入类似Grönwall不等式的界,我们证明了这一单步改进可沿整个生成轨迹传播,从而带来系统性的性能提升。其次,基于上述理论结果,我们提出了无需训练的通用策略组合方法(General Policy Composition, GPC):该方法通过凸组合多个预训练策略的分布得分,并结合测试时搜索(test-time search),实现性能增强。GPC具有高度灵活性,支持异构策略的即插即用式组合,包括VA与VLA模型,以及基于扩散模型或流匹配(flow-matching)的策略,且不依赖于其输入的视觉模态。第三,我们提供了广泛的实证验证。在Robomimic、PushT和RoboTwin等多个基准测试上,以及真实机器人环境中的评估结果均表明,GPC在多种任务中均能持续提升策略性能与适应能力。对不同组合算子和权重策略的进一步分析,揭示了GPC取得成功背后的机制。综上,本研究确立了GPC作为一种简单而高效的方法,能够通过复用已有策略显著提升控制性能。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供