MIT entwickelt AI-System für realistische Roboter-Trainingswelten
麻省理工学院计算机科学与人工智能实验室(CSAIL)与丰田研究院的研究团队推出了一种名为“可控场景生成”的创新方法,旨在为机器人训练构建高度逼真且多样化的虚拟环境。传统机器人训练依赖真实世界中的操作演示,但这一过程耗时耗力且难以复现。尽管先前尝试通过AI生成模拟数据或手动构建3D场景,但普遍存在物理不真实、缺乏多样性或成本过高的问题。新方法利用扩散模型结合蒙特卡洛树搜索(MCTS)和强化学习,实现对3D场景的程序化、可控生成。该系统在超过4400万个3D房间数据集上训练,能够根据用户指令(如“一个桌上放有碗和四个苹果的厨房”)精准构建场景,准确率高达98%。其核心优势在于通过MCTS在生成过程中动态优化场景布局,确保物体间无穿模、符合物理规律,并能生成远超训练数据复杂度的场景——例如在餐厅场景中成功添加34件物品,远超平均17件的水平。系统还支持“补全”功能,可在保留已有元素的基础上重新排列或添加物体,实现灵活的场景演化。通过强化学习,模型能自主学习如何生成更高得分(更符合目标)的场景,显著提升多样性与任务相关性。该技术不仅提升了场景生成的物理真实性,还突破了传统方法在2D布局或固定资产库上的局限,全面考虑3D空间中的平移与旋转。研究团队认为,这种方法允许从训练数据分布之外“采样”,生成真正适用于机器人训练的多样化、任务对齐环境。目前,该系统仍以概念验证为主,未来计划引入可动关节物体(如可开柜门、带食物的罐子),并整合来自互联网图像的物体库,进一步增强真实感与互动性。团队还希望建立用户社区,共同构建大规模共享数据集。 业内专家高度评价该成果。亚马逊机器人公司应用科学家Jeremy Binagia指出,该方法在保证物理可行性的同时,实现了3D空间的高效生成,显著优于依赖2D网格或现成视觉语言模型的旧方法。丰田研究院机器人专家Rick Cory认为,该框架结合训练后处理与推理时搜索,为自动化生成复杂、前所未见的场景提供了高效路径,有望成为机器人真实世界部署的关键里程碑。该技术代表了生成式AI在机器人训练基础设施中的重要突破,预示着未来智能机器人将能在更丰富、更真实的虚拟环境中接受规模化、高质量训练。
