HyperAIHyperAI

Command Palette

Search for a command to run...

MIT تطور طريقة ذكية لتدريب الروبوتات باستخدام ذكاء اصطناعي يُولِّد عوالم افتراضية واقعية وقابلة للتحكم

麻省理工学院计算机科学与人工智能实验室(CSAIL)联合丰田研究院推出了一种名为“可控场景生成”的创新方法,旨在为机器人训练打造高度逼真且多样化的虚拟环境。这一突破性技术解决了传统机器人训练中数据获取成本高、真实场景难以复现的难题。 当前,尽管大型语言模型如ChatGPT在文本任务上表现出色,但机器人要掌握抓取、堆叠、摆放等复杂操作,仍需依赖大量真实世界中的演示数据。然而,在真实机器人上收集这些数据不仅耗时费力,还难以保证一致性与可重复性。此前尝试通过AI生成模拟场景的方法,往往因脱离物理规律而失效,而手动构建3D环境则成本高昂且效率低下。 “可控场景生成”通过结合扩散模型与蒙特卡洛树搜索(MCTS),实现了对3D场景的智能、可控生成。该系统基于超过4400万个3D房间的训练数据,能够将现有物体资产智能地布置到新场景中,并确保其符合真实物理规则——例如避免物体穿模、保持稳定堆叠等。其核心在于将场景生成视为一个序列决策过程:系统通过MCTS算法探索多种可能的布局方案,不断优化以达成目标,如提升物理合理性或增加可食用物品数量。 实验表明,该方法在简单餐厅场景中成功添加多达34件物品,远超训练数据中平均17件的水平。同时,系统支持通过强化学习实现目标导向的场景生成,用户只需设定奖励机制,AI便能自主学习生成更优、更具多样性的环境。此外,系统能精准响应自然语言指令,例如“一个厨房,桌上有一个碗和四个苹果”,在食品储藏架场景中的准确率达98%,凌乱早餐桌场景也达到86%,均优于现有同类方法。 该技术还支持场景补全功能,用户可要求“用相同物体设计不同布局”,实现灵活重用。研究团队强调,其优势在于能突破原始训练数据的分布限制,生成与真实任务高度匹配的“理想”场景,从而显著提升机器人训练效果。 尽管目前仍属概念验证阶段,但未来研究将聚焦于生成全新物体、引入可动部件(如可开合的柜门、带内容的罐子),并整合互联网图像资源,进一步拓展场景的丰富性与真实性。团队希望构建开放社区,共同积累大规模、高质量的虚拟训练数据集。 专家评价认为,该方法在物理可行性、3D空间精度和生成多样性方面均显著优于传统方案,为机器人在真实世界中高效部署提供了关键支持。这一进展标志着生成式AI正从内容创作迈向具身智能训练的核心环节,开启机器人自主学习的新篇章。

الروابط ذات الصلة