11 天前

机器人强化学习中的平滑探索

Antonin Raffin, Jens Kober, Freek Stulp
机器人强化学习中的平滑探索
摘要

强化学习(Reinforcement Learning, RL)使机器人能够通过与真实世界交互来自主习得技能。在实际应用中,深度强化学习(Deep RL)通常采用无结构的基于步骤的探索策略,尽管该策略在仿真环境中表现优异,但在真实机器人上往往导致动作僵硬、不连贯,产生抖动行为。这种不稳定的运动模式不仅降低了探索效率,甚至可能对机器人本体造成损坏。为解决上述问题,本文将状态依赖性探索(State-Dependent Exploration, SDE)方法适配至当前主流的深度强化学习算法中。为实现这一适配,我们对原始SDE提出两项改进:一是引入更具泛化能力的特征表示,二是周期性重采样噪声。由此提出一种新型探索方法——广义状态依赖性探索(Generalized State-Dependent Exploration, gSDE)。我们通过在PyBullet连续控制任务中进行仿真评估,并在三类真实机器人平台上直接验证gSDE的有效性,包括一种肌腱驱动的弹性机器人、一只四足机器人以及一辆遥控汽车。gSDE的噪声采样间隔可灵活调节,使模型在性能与运动平滑性之间取得良好平衡,从而支持在真实机器人上直接进行训练,且无需牺牲学习性能。相关代码已开源,地址为:https://github.com/DLR-RM/stable-baselines3。

机器人强化学习中的平滑探索 | 最新论文 | HyperAI超神经