基于专家去噪器混合的高效扩散Transformer策略用于多任务学习

扩散策略(Diffusion Policies)在模仿学习(Imitation Learning)领域已得到广泛应用,展现出多项优异特性,例如能够生成多模态且非连续的行为。随着模型规模不断增大以捕获更复杂的智能能力,其计算需求也随之显著上升,这一趋势在近期的模型缩放定律(scaling laws)中得到了充分验证。因此,若继续沿用当前的架构设计,将面临严峻的计算瓶颈。为解决这一挑战,本文提出一种新型模仿学习策略——去噪专家混合模型(Mixture-of-Denoising Experts, MoDE)。MoDE 在超越现有基于 Transformer 的扩散策略性能的同时,通过引入稀疏专家结构与噪声条件路由机制,实现了参数高效的可扩展性。该设计使模型的活跃参数减少 40%,推理成本降低高达 90%,并得益于专家缓存机制进一步优化计算效率。此外,MoDE 的架构融合了噪声条件自注意力机制,显著提升了在不同噪声水平下的去噪能力,从而增强了策略的鲁棒性与泛化性能。在四个主流模仿学习基准测试(CALVIN 与 LIBERO)的共 134 项任务中,MoDE 均取得了当前最优性能。特别地,在多样化机器人数据上进行预训练后,MoDE 在 CALVIN ABC 任务上达到 4.01 的得分,在 LIBERO-90 上达到 0.95,均显著优于现有方法。在四个基准上的平均表现相比基于 CNN 与 Transformer 的扩散策略提升了 57%,同时仅需后者 10% 的浮点运算量(FLOPs),且活跃参数数量也大幅减少。为进一步揭示模型设计的有效性,本文对 MoDE 的各组件进行了全面消融实验,为未来高效、可扩展的扩散策略 Transformer 架构设计提供了重要洞见。相关代码与演示视频已公开,详见:https://mbreuss.github.io/MoDE_Diffusion_Policy/。