Command Palette
Search for a command to run...
部署中学习(Learning While Deploying,简称 LWD)由上海创新研究院、智元机器人和哥伦比亚大学的研究人员于 2026 年提出。相关研究成果发表于论文 Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies 。
LWD 是一种结合大规模车队部署与离线到在线强化学习的可扩展框架,主要用于解决通用视觉-语言-动作(VLA)模型在真实世界复杂环境中执行任务时,因仅依赖离线预训练数据而导致的难以应对「分布偏移与长尾失败」问题。该框架通过引入分布式隐式价值学习(DIVL)与基于伴随匹配的 Q 学习(QAM),在真实部署中持续聚合机器人的自主互动与人类干预数据,无需脱离实际应用场景就能实现策略模型的稳定迭代。研究成果表明,LWD 有效克服了稀疏奖励带来的学习瓶颈,显著增强了通用大模型在各类真实物理环境下的适应与泛化能力;在超市理货、泡功夫茶和调鸡尾酒等 8 个复杂的真实具身场景中,使单一通用策略模型实现了高达 95% 的平均任务成功率,并大幅缩短了长程任务的执行耗时。