HyperAIHyperAI

Command Palette

Search for a command to run...

生成式AI打造虚拟训练场,赋能机器人智能跃升

研究人员正利用生成式人工智能打造更真实、多样的虚拟训练环境,以加速机器人的学习进程。尽管像ChatGPT这样的聊天机器人能处理写作、编程等任务,但它们依赖的是海量文本数据,而机器人要掌握在家庭或工厂中操作物体的技能,需要的是真实世界的动作示范——类似于“如何摆放餐具”或“如何堆叠物品”的视频教学。 传统方式中,通过真实机器人收集训练数据耗时且难以重复,而现有的模拟环境往往物理不真实,或需人工逐个搭建。为解决这一难题,麻省理工学院计算机科学与人工智能实验室(CSAIL)与丰田研究院的研究团队提出了一种名为“可调控场景生成”(steerable scene generation)的新方法。 该系统基于扩散模型,通过“引导”AI从随机噪声中生成逼真的3D场景,如厨房、客厅或餐厅。它利用超过4400万组3D房间数据进行训练,能自动将已有物体模型合理布局,并修正常见问题,如物体穿模(“clipping”),确保物理合理性。例如,叉子不会穿过碗,而是自然地放在其上方。 核心创新在于采用“蒙特卡洛树搜索”(MCTS)策略,将场景生成视为一个逐步决策过程。系统会尝试多种布局方案,评估其物理真实度或目标达成度(如“尽可能多放可食用物品”),最终选出最优解。在一项实验中,系统将原本平均含17件物品的餐厅场景,扩展至最多34件,包括多层蒸笼,远超原始训练数据的复杂度。 此外,系统还支持通过自然语言指令生成场景,如“一个有四个苹果和一个碗的餐桌”。实验显示,其准确率高达98%(储物架场景)和86%(杂乱早餐桌),显著优于现有方法。用户还可通过轻量提示(如“用相同物品重新排列”)实现场景变换,系统能智能填补空白区域,保持原有结构。 研究人员认为,该方法的关键在于能突破原始训练数据的分布限制,生成更符合实际任务需求的“理想场景”。这些虚拟环境已成功用于训练虚拟机器人完成摆放餐具、分餐等动作,过程流畅自然。 目前该技术仍属概念验证阶段。未来团队希望利用AI生成全新物体与互动结构(如可开合的柜门或瓶罐),进一步提升场景交互性。专家指出,这一框架为大规模自动化场景生成提供了高效路径,结合互联网海量数据,有望推动机器人在真实世界中的高效部署。该成果已在机器人学习会议(CoRL)上发表,研究获亚马逊与丰田研究院支持。

相关链接