Command Palette
Search for a command to run...
Tonghe Zhang Chao Yu Sichang Su Yu Wang

摘要
我们提出ReinFlow,一种简单而高效的在线强化学习(RL)框架,用于对一系列流匹配策略进行微调,以实现连续机器人控制。基于严格的强化学习理论,ReinFlow在流策略的确定性路径中引入可学习的噪声,将流过程转化为离散时间马尔可夫过程,从而实现精确且简便的概率似然计算。这一转换不仅促进了探索,还保障了训练的稳定性,使ReinFlow能够对多种流模型变体进行微调,包括修正流(Rectified Flow)[35] 和捷径模型(Shortcut Models)[19],尤其在仅使用极少甚至仅一个去噪步骤的情况下表现优异。我们在典型的运动与操作任务中对ReinFlow进行了基准测试,涵盖具有视觉输入和稀疏奖励的长时程规划任务。在具有挑战性的四足运动任务中,经过ReinFlow微调后的修正流策略的平均回合奖励提升了135.36%,同时显著减少了去噪步骤数量,并相较当前最先进的扩散强化学习微调方法DPPO [43] 节省了82.63%的运行时间。在状态空间与视觉操作任务中,捷径模型策略在四步甚至单步去噪条件下,经ReinFlow微调后成功率平均提升了40.34%,其性能与微调后的DDIM策略相当,同时平均节省了23.20%的计算时间。