Command Palette
Search for a command to run...
在线强化学习框架 ReinFlow
ReinFlow 是由卡内基梅隆大学、清华大学等高校机构的研究团队于 2025 年 9 月联合提出的,相关研究成果发表于论文「ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning」,已入选 NeurIPS 2025 。
ReinFlow 是首个能够稳定微调一系列流匹配策略的在线强化学习算法,用于对连续机器人控制的一类流匹配策略进行微调。基于严格的 RL 理论,该范式将可学习的噪声注入流策略的确定性路径中,将流转换为离散时间马尔可夫过程,从而实现精确且直接的可能性计算。这种转换促进了探索并确保了训练稳定性,使 ReinFlow 能够稳定地微调各种流模型变体,尤其是在极少数甚至仅一步去噪步骤时。