Command Palette

Search for a command to run...

2 个月前

离散扩散VLA:将离散扩散引入视觉-语言-动作策略中的动作解码

Zhixuan Liang Yizhuo Li Tianshuo Yang Chengyue Wu Sitong Mao Liuao Pei Xiaokang Yang Jiangmiao Pang Yao Mu Ping Luo

离散扩散VLA:将离散扩散引入视觉-语言-动作策略中的动作解码

摘要

视觉-语言-动作(Vision-Language-Action, VLA)模型通过将大型视觉-语言骨干网络适配为从图像和指令映射到机器人动作的机制,实现了跨模态的决策能力。然而,当前主流的VLA解码器要么以固定的从左到右顺序自回归地生成动作,要么在骨干网络外部附加连续的扩散模型或流匹配头,这不仅需要专门的训练流程,还依赖迭代采样,从而阻碍了统一且可扩展的架构设计。本文提出一种名为离散扩散VLA(Discrete Diffusion VLA)的单一Transformer策略,该策略采用离散扩散机制对离散化的动作片段进行建模,并使用与视觉-语言模型(VLM)骨干网络相同的交叉熵损失目标进行训练。该设计在保留扩散模型逐步精炼思想的同时,天然兼容VLM所采用的离散令牌接口。我们的方法实现了自适应的解码顺序——优先处理较简单的动作元素,再逐步处理更复杂的部分,并通过二次掩码机制在多轮精炼过程中重新审视不确定的预测结果,从而显著提升动作序列的一致性,并支持鲁棒的错误修正能力。该统一的解码器在保留预训练视觉-语言先验知识的基础上,支持并行解码,突破了自回归生成的瓶颈,同时大幅减少了函数评估次数。在LIBERO基准上,离散扩散VLA实现了96.3%的平均成功率(SR);在SimplerEnv Fractal任务中达到71.2%的视觉匹配率;在SimplerEnv Bridge任务中获得49.3%的总体表现,均优于现有的自回归和连续扩散基线方法。这些结果表明,基于离散扩散的动作解码器能够实现高精度的动作建模与一致的训练过程,为VLA模型向更大规模模型和更大数据集的扩展奠定了坚实基础。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
离散扩散VLA:将离散扩散引入视觉-语言-动作策略中的动作解码 | 论文 | HyperAI超神经