日期

3 个月前

组织

论文 URL

openreview.net

标签

强化学习

均值速度策略（Mean Velocity Policy，简称 MVP）是由清华大学（车辆与运载学院及人工智能学院）、加州大学伯克利分校人工智能研究实验室（BAIR）以及香港大学的研究团队共同提出的。相关研究成果发表于论文「Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation」，已被 ICLR 2026 接受。

MVP 是一种用于强化学习的新型生成式策略，它通过对「平均速度场」进行建模，实现了最快的单步动作生成，彻底消除了多步采样的计算开销。为了解决模型缺乏显式边界条件的难题，研究团队引入了「瞬时速度约束（IVC）」，有效提升了学习准确性与策略表达能力。在实际表现上，MVP 大幅提升了训练与推理速度（平均单步推理仅需 10.93 毫秒），并在 Robomimic 和 OGBench 的复杂机器人操作任务中取得了 0.88 的平均最高成功率，达到了该领域的 SOTA 。

世界动作模型 WAM

WAM 是一种面向具身智能与机器人领域的新型 AI 基础模型架构。

2 个月前

Peak-Return Greedy Slicing

PRGS 显著增强了离线强化学习模型拼接高回报经验的能力。

3 个月前

空间理论 Theory of Space

空间理论是指智能体通过主动探索在不完全信息环境中构建、更新并利用空间信念的能力框架。

3 个月前

稠密检索器 Dense Retriever

稠密检索器负责从海量文档库中快速找出与查询语义最相关的段落，是检索增强生成系统的核心基础组件。

3 个月前

部署中学习 Learning While Deploying

LWD 是一种舰队级离线到在线强化学习框架，使通用机器人持续收集经验并实现策略的自我进化。

2 个月前

思维引导的强化学习框架 Guided Thought Reinforcement

GTR 能在复杂视觉环境中引导模型推理，防止「思维崩溃」

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

日期

3 个月前

组织

论文 URL

openreview.net

标签

强化学习

世界动作模型 WAM

WAM 是一种面向具身智能与机器人领域的新型 AI 基础模型架构。

2 个月前

Peak-Return Greedy Slicing

PRGS 显著增强了离线强化学习模型拼接高回报经验的能力。

3 个月前

空间理论 Theory of Space

空间理论是指智能体通过主动探索在不完全信息环境中构建、更新并利用空间信念的能力框架。

3 个月前

稠密检索器 Dense Retriever

稠密检索器负责从海量文档库中快速找出与查询语义最相关的段落，是检索增强生成系统的核心基础组件。

3 个月前

部署中学习 Learning While Deploying

LWD 是一种舰队级离线到在线强化学习框架，使通用机器人持续收集经验并实现策略的自我进化。

2 个月前

思维引导的强化学习框架 Guided Thought Reinforcement

GTR 能在复杂视觉环境中引导模型推理，防止「思维崩溃」

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

用 AI 构建 AI

HyperAI Newsletters

相关百科

世界动作模型 WAM

Peak-Return Greedy Slicing

空间理论 Theory of Space

稠密检索器 Dense Retriever

部署中学习 Learning While Deploying

思维引导的强化学习框架 Guided Thought Reinforcement

用 AI 构建 AI

HyperAI Newsletters

相关百科

世界动作模型 WAM

Peak-Return Greedy Slicing

空间理论 Theory of Space

稠密检索器 Dense Retriever

部署中学习 Learning While Deploying

思维引导的强化学习框架 Guided Thought Reinforcement

用 AI 构建 AI

HyperAI Newsletters

相关百科

世界动作模型 WAM

Peak-Return Greedy Slicing

空间理论 Theory of Space

稠密检索器 Dense Retriever

部署中学习 Learning While Deploying

思维引导的强化学习框架 Guided Thought Reinforcement

相关百科

世界动作模型 WAM

Peak-Return Greedy Slicing

空间理论 Theory of Space

稠密检索器 Dense Retriever

部署中学习 Learning While Deploying

思维引导的强化学习框架 Guided Thought Reinforcement

Command Palette

均值速度策略 MVP

用 AI 构建 AI

HyperAI Newsletters

Command Palette

均值速度策略 MVP

相关百科

世界动作模型 WAM

Peak-Return Greedy Slicing

空间理论 Theory of Space

稠密检索器 Dense Retriever

部署中学习 Learning While Deploying

思维引导的强化学习框架 Guided Thought Reinforcement

用 AI 构建 AI

HyperAI Newsletters

Command Palette

均值速度策略 MVP

相关百科

世界动作模型 WAM

Peak-Return Greedy Slicing

空间理论 Theory of Space

稠密检索器 Dense Retriever

部署中学习 Learning While Deploying

思维引导的强化学习框架 Guided Thought Reinforcement

用 AI 构建 AI

HyperAI Newsletters

相关百科

世界动作模型 WAM

Peak-Return Greedy Slicing

空间理论 Theory of Space

稠密检索器 Dense Retriever

部署中学习 Learning While Deploying

思维引导的强化学习框架 Guided Thought Reinforcement

相关百科

世界动作模型 WAM

Peak-Return Greedy Slicing

空间理论 Theory of Space

稠密检索器 Dense Retriever

部署中学习 Learning While Deploying

思维引导的强化学习框架 Guided Thought Reinforcement