日期

1 个月前

组织

论文 URL

标签

部署中学习（Learning While Deploying，简称 LWD）由上海创新研究院、智元机器人和哥伦比亚大学的研究人员于 2026 年提出。相关研究成果发表于论文 Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies 。

LWD 是一种结合大规模车队部署与离线到在线强化学习的可扩展框架，主要用于解决通用视觉-语言-动作（VLA）模型在真实世界复杂环境中执行任务时，因仅依赖离线预训练数据而导致的难以应对「分布偏移与长尾失败」问题。该框架通过引入分布式隐式价值学习（DIVL）与基于伴随匹配的 Q 学习（QAM），在真实部署中持续聚合机器人的自主互动与人类干预数据，无需脱离实际应用场景就能实现策略模型的稳定迭代。研究成果表明，LWD 有效克服了稀疏奖励带来的学习瓶颈，显著增强了通用大模型在各类真实物理环境下的适应与泛化能力；在超市理货、泡功夫茶和调鸡尾酒等 8 个复杂的真实具身场景中，使单一通用策略模型实现了高达 95% 的平均任务成功率，并大幅缩短了长程任务的执行耗时。