摘要

近期研究表明，扩散模型在行为克隆中学习演示数据所引发的多模态分布方面具有高效性。然而，该方法的一个显著缺点在于需要学习一个去噪函数，其复杂度远高于直接学习显式策略。为此，本文提出了一种新型的扩散策略学习方法——等变扩散策略（Equivariant Diffusion Policy），该方法利用领域对称性来提升去噪函数的样本效率与泛化能力。我们从理论上分析了全6自由度控制中的 $\mathrm{SO}(2)$ 对称性，并刻画了扩散模型实现 $\mathrm{SO}(2)$ 等变性的条件。我们在MimicGen平台上的12个仿真任务上对所提方法进行了实证评估，结果表明，该方法的平均成功率比基线扩散策略（Diffusion Policy）高出21.9%。此外，我们在真实机器人系统上进行了测试，验证了该方法仅需少量训练样本即可学习到高效策略，而基线扩散策略在相同条件下则难以取得有效性能。