Atlas-Roboter lernt von Menschensimulationen und meistert komplexe Aufgaben
波士顿动力与丰田研究所(TRI)联合发布重大AI进展,标志着人形机器人Atlas在通用任务处理能力上迈出关键一步。双方通过集成大型行为模型(Large Behavior Models, LBMs),使Atlas不再依赖繁琐的预编程指令,而是能够通过观察人类示范自主学习新技能。这一突破解决了传统机器人编程中“脆弱性高、适应性差”的核心瓶颈——过去需为每种场景手动编写代码,稍有环境变化即可能失效。新系统采用端到端AI策略,将感知、决策与控制统一整合于单一神经网络中,实现对全身动作的协调控制,包括行走、抓取、折叠、搬运等复杂操作。 在演示视频中,Atlas面对装有Spot机器人零件的推车,自主完成一系列连贯任务:抓取并折叠机械腿,精准放置于货架;取下面板,拉开抽屉,分类收纳;清空推车后,转向处理散乱零件的蓝色大桶,将零件转移至另一辆推车。整个过程涵盖移动、抓取、姿态调整、空间推理等多重挑战,展现了长序列任务执行能力。更关键的是,系统具备动态适应性:当研究人员故意合上箱子或掉落零件时,Atlas能自主尝试打开箱盖或俯身捡起,无需预设应急代码,体现了初步的环境感知与问题解决能力。 该能力源于一套创新的数据训练流程。研究团队利用虚拟现实(VR)遥操作系统,由操作员以第一人称视角操控Atlas完成任务,系统同步记录RGB图像、本体感觉数据与语言指令,构建多模态训练集。这些数据输入一个含4.5亿参数、基于扩散Transformer架构的神经网络,使模型学会将语言指令映射为连贯物理动作。更重要的是,团队采用“通用策略”(generalist policies)范式,融合来自Atlas全尺寸机器人、上半身测试台及TRI其他平台的多样化数据,训练出一个可泛化至多种任务与物体的统一模型。这使得Atlas能灵活应对硬质工具、柔软布料、重型轮胎等不同材质与形态的物体,无需为每类物体重新编程。 此外,模型部署后执行效率显著提升,动作速度可达原始人类演示的1.5至2倍,部分场景甚至超越人类操作员,且无需重新训练。这一成果得益于波士顿动力与TRI构建的“模拟-物理”闭环研发体系:AI策略先在高保真仿真环境中大规模测试,验证后再部署至实体机器人,大幅降低试错成本与硬件损耗。 尽管取得里程碑式进展,通用人形机器人距离大规模应用仍存挑战,尤其是如何低成本、高效获取海量高质量训练数据。此外,模型在极端复杂或非结构化环境中的可靠性、安全性与伦理问题仍待深入研究。 业内专家认为,此次合作是迈向“通用机器人”的重要转折点。TRI高级副总裁Russ Tedrake指出,该技术为机器人在真实人类环境中执行多样化任务提供了可行路径。波士顿动力凭借其在运动控制与硬件工程上的深厚积累,结合丰田研究所的AI研究实力,正加速推动人形机器人从实验室走向现实场景。未来,这一技术或率先应用于制造业、仓储物流与高危作业领域,为自动化产业注入新动力。
