Command Palette
Search for a command to run...
均值速度策略 MVP
均值速度策略(Mean Velocity Policy,简称 MVP)是由清华大学(车辆与运载学院及人工智能学院)、加州大学伯克利分校人工智能研究实验室(BAIR)以及香港大学的研究团队共同提出的 。该成果作为会议论文正式发表于 2026 年的国际表征学习大会(ICLR 2026)。相关研究成果发表于论文「Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation」。
MVP 是一种用于强化学习的新型生成式策略,它通过对「平均速度场」进行建模,实现了最快的单步动作生成,彻底消除了多步采样的计算开销 。为了解决模型缺乏显式边界条件的难题,研究团队引入了「瞬时速度约束(IVC)」,有效提升了学习准确性与策略表达能力 。在实际表现上,MVP 大幅提升了训练与推理速度(平均单步推理仅需 10.93 毫秒),并在 Robomimic 和 OGBench 的复杂机器人操作任务中取得了 0.88 的平均最高成功率,达到了该领域的 SOTA 。