丰田研究院新突破:机器人单一模型掌握数百技能,数据需求减少80%
丰田研究院(TRI)近期发布了其关于大规模行为模型(LBMs)的重大研究成果,标志着机器人学习方式的重大突破。这一研究展示了通过预训练的LBMs,机器人学习新任务时的数据需求减少了高达80%,并且单一模型可以掌握数百种不同的操作技能。该研究的论文《大行为模型多任务灵巧操作的细致检验》已发布在arXiv上。 核心人物之一,丰田研究院副总裁及麻省理工学院教授Russ Tedrake在社交媒体上表达了对LBMs的研究成果的认可,称这些模型展示了随着预训练数据增多而带来的显著改进。这项新技术不仅提高了机器人的学习效率,还在灵活性和适应性方面展现了巨大潜力。 传统的机器人训练方法存在着任务单独编程、学习过程慢且容易出错的问题,而LBMs借鉴了大语言模型(LLMs)的设计思想,将其应用于机器人的物理操作学习上。LBMs是一个复杂的神经网络,结合了扩散模型和Transformer架构,能够融合多路摄像头的视觉信息、机器人自身的位置与姿态等感知数据以及通过自然语言下发的任务指令,从而生成一系列连贯、精确的动作指令。 为了验证这些模型的有效性,TRI的研究人员在接近1,700小时的机器人演示数据上进行了训练,这些数据涵盖了双臂机器人的实际操作记录、仿真收集的遥操作数据、通用操作接口提供的数据以及从互联网上的开放数据集Open X-Embodiment精选的内容。研究者们进一步进行了大量的真实世界实验和仿真试验,共涵盖29个不同的任务,采用盲测和新型统计评估框架保障了结果的可信度。 LBMs的研究揭示了三个重要结论。一是LBMs在已见过的任务上的表现优于单一任务模型;二是在面对环境变化时,LBMs展现出更佳的适应能力;更重要的是,它大幅缩短了学习新任务所需的数据准备时间。例如,在虚拟环境中,训练LBMs所需的样本数据仅为零基础训练模型的30%以下;而在真实的作业场景中,这一差距更为显著—使用15%的数据即可实现超越完全样本下的基线效果。此外,LBMs遵循了类似AI模型发展的Scaling Law规律,即预训练数据量越大,模型性能越强,即便在现有基础上,仍没有出现性能增长的停滞迹象,预示着持续投入将带来更多益处。 尽管LBMs展现出了强大的潜力,但项目组也指出了存在的挑战。其中包括:预训练LBMs在未经调优的情况下,其语言引导的能力仍有待提高;某些设计变量,如数据的归一化处理,对于最终性能的影响甚至超过了算法本身的优化作用,强调了细致的研究设计对获得准确结果的重要性。 专家认为,丰田研究院的LBMs研究对机器人行业具有深远影响,不仅因为其显著减少了学习新任务所需的数据量,而且提高了机器人的适应性和泛化能力,有助于推动人机交互和自主操作技术的进步。同时,这项研究还强化了在机器人学习领域能够应用AI扩展法则的观点,鼓励更多的研究者探索大规模数据支持下的机器人智能发展。 TRI成立于2015年,致力于推进自动驾驶、机器学习、机器人技术和清洁能源等领域的发展。这一成果不仅是TRI在其机器人研究方向上的重大突破,也展示了其在国际前沿科技领域的创新能力。