HyperAIHyperAI

Command Palette

Search for a command to run...

均值速度策略 MVP

日期

14 小时前

组织

The University of Hong Kong
Tsinghua University(清华大学)
University of California(加州大学)

论文 URL

openreview.net

均值速度策略(Mean Velocity Policy,简称 MVP)是由清华大学(车辆与运载学院及人工智能学院)、加州大学伯克利分校人工智能研究实验室(BAIR)以及香港大学的研究团队共同提出的 。该成果作为会议论文正式发表于 2026 年的国际表征学习大会(ICLR 2026)。相关研究成果发表于论文「Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation」。

MVP 是一种用于强化学习的新型生成式策略,它通过对「平均速度场」进行建模,实现了最快的单步动作生成,彻底消除了多步采样的计算开销 。为了解决模型缺乏显式边界条件的难题,研究团队引入了「瞬时速度约束(IVC)」,有效提升了学习准确性与策略表达能力 。在实际表现上,MVP 大幅提升了训练与推理速度(平均单步推理仅需 10.93 毫秒),并在 Robomimic 和 OGBench 的复杂机器人操作任务中取得了 0.88 的平均最高成功率,达到了该领域的 SOTA 。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供