17 天前

用于端到端感知运动学习的神经动态策略

Shikhar Bahl, Mustafa Mukadam, Abhinav Gupta, Deepak Pathak
用于端到端感知运动学习的神经动态策略
摘要

当前传感器-运动控制领域的主流范式,无论是模仿学习还是强化学习,通常都是在原始动作空间(如力矩、关节角度或末端执行器位置)中直接训练策略。这种做法要求智能体在训练的每个时间步独立做出决策,因而严重限制了其在连续、高维以及长时程任务中的可扩展性。相比之下,传统机器人学领域长期以来一直利用动态系统作为策略表示方法,通过示范数据来学习机器人行为。然而,这类方法缺乏深度学习或强化学习所赋予的灵活性与泛化能力,在当前主流学习框架中仍鲜少被深入探索。在本工作中,我们致力于弥合这一差距,通过引入二阶微分方程对动作空间进行重参数化,将动态系统结构嵌入基于深度神经网络的策略中。我们提出了一种新型策略框架——神经动态策略(Neural Dynamic Policies, NDPs),其预测目标为轨迹分布空间,而非以往策略学习方法中直接作用于原始控制空间的动作。该嵌入的结构支持在强化学习与模仿学习两种设置下实现端到端的策略学习。实验结果表明,在多种机器人控制任务中,NDPs在效率或性能方面均显著优于现有最先进方法。项目视频与代码已公开,详见:https://shikharbahl.github.io/neural-dynamic-policies/