Command Palette

Search for a command to run...

3 个月前

3D Diffuser Actor:基于3D场景表示的策略扩散

摘要

我们将扩散策略与三维场景表征相结合,用于机器人操作任务。扩散策略利用条件扩散模型,学习在机器人及环境状态条件下的动作分布,近期已证明其性能优于确定性方法以及其它状态条件下的动作分布学习方法。三维机器人策略则通过单目或多目相机视角获取的感知深度信息,聚合生成三维场景特征表示,其在不同相机视角下的泛化能力优于传统的二维方法。本文统一了上述两条研究路径,提出一种名为3D Diffuser Actor的神经策略架构:在给定语言指令的前提下,该架构构建视觉场景的三维表示,并以此为条件,迭代地去噪机器人末端执行器的三维旋转与平移动作。在每一次去噪迭代中,我们的模型将末端执行器的姿态估计表示为三维场景令牌(tokens),并通过使用三维相对注意力机制对其他三维视觉与语言令牌进行特征提取,预测每个令牌对应的三维平移与旋转误差。在RLBench基准测试中,3D Diffuser Actor在多视角设置下相较于当前最先进方法实现了16.3%的绝对性能提升,在单视角设置下也实现了13.1%的绝对性能增益,创下新的最先进水平。在CALVIN基准测试中,该方法在零样本未见场景泛化场景下,相较当前最先进方法成功执行了多0.2个任务,实现了7%的相对性能提升。此外,该方法在真实世界中仅需少量示范即可有效运行。我们对模型的架构设计选择进行了消融分析,包括三维场景特征化与三维相对注意力机制,结果表明这些设计均有助于提升泛化能力。实验结果表明,三维场景表征与强大的生成建模能力,是实现高效从示范中学习机器人技能的关键。

代码仓库

nickgkan/3d_diffuser_actor
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供