HyperAI

منذ 4 أشهر

الرؤية الحاسوبية

التركيب

麻省理工学院计算机科学与人工智能实验室（CSAIL）联合丰田研究院推出了一种名为“可控场景生成”的创新方法，旨在为机器人训练打造高度逼真且多样化的虚拟环境。这一突破性技术解决了传统机器人训练中数据获取成本高、真实场景难以复现的难题。当前，尽管大型语言模型如ChatGPT在文本任务上表现出色，但机器人要掌握抓取、堆叠、摆放等复杂操作，仍需依赖大量真实世界中的演示数据。然而，在真实机器人上收集这些数据不仅耗时费力，还难以保证一致性与可重复性。此前尝试通过AI生成模拟场景的方法，往往因脱离物理规律而失效，而手动构建3D环境则成本高昂且效率低下。 “可控场景生成”通过结合扩散模型与蒙特卡洛树搜索（MCTS），实现了对3D场景的智能、可控生成。该系统基于超过4400万个3D房间的训练数据，能够将现有物体资产智能地布置到新场景中，并确保其符合真实物理规则——例如避免物体穿模、保持稳定堆叠等。其核心在于将场景生成视为一个序列决策过程：系统通过MCTS算法探索多种可能的布局方案，不断优化以达成目标，如提升物理合理性或增加可食用物品数量。实验表明，该方法在简单餐厅场景中成功添加多达34件物品，远超训练数据中平均17件的水平。同时，系统支持通过强化学习实现目标导向的场景生成，用户只需设定奖励机制，AI便能自主学习生成更优、更具多样性的环境。此外，系统能精准响应自然语言指令，例如“一个厨房，桌上有一个碗和四个苹果”，在食品储藏架场景中的准确率达98%，凌乱早餐桌场景也达到86%，均优于现有同类方法。该技术还支持场景补全功能，用户可要求“用相同物体设计不同布局”，实现灵活重用。研究团队强调，其优势在于能突破原始训练数据的分布限制，生成与真实任务高度匹配的“理想”场景，从而显著提升机器人训练效果。尽管目前仍属概念验证阶段，但未来研究将聚焦于生成全新物体、引入可动部件（如可开合的柜门、带内容的罐子），并整合互联网图像资源，进一步拓展场景的丰富性与真实性。团队希望构建开放社区，共同积累大规模、高质量的虚拟训练数据集。专家评价认为，该方法在物理可行性、3D空间精度和生成多样性方面均显著优于传统方案，为机器人在真实世界中高效部署提供了关键支持。这一进展标志着生成式AI正从内容创作迈向具身智能训练的核心环节，开启机器人自主学习的新篇章。

الروابط ذات الصلة

MIT团队发布“可控场景生成”新方法，用AI为机器人构建无限逼真世界

MIT Technology Review

منذ 4 أشهر

الروابط ذات الصلة

MIT团队发布“可控场景生成”新方法，用AI为机器人构建无限逼真世界

MIT Technology Review

منذ 4 أشهر

الروابط ذات الصلة

MIT团队发布“可控场景生成”新方法，用AI为机器人构建无限逼真世界

MIT Technology Review

Command Palette

MIT تطور طريقة ذكية لتدريب الروبوتات باستخدام ذكاء اصطناعي يُولِّد عوالم افتراضية واقعية وقابلة للتحكم

الروابط ذات الصلة

Command Palette

MIT تطور طريقة ذكية لتدريب الروبوتات باستخدام ذكاء اصطناعي يُولِّد عوالم افتراضية واقعية وقابلة للتحكم

الروابط ذات الصلة

Command Palette

MIT تطور طريقة ذكية لتدريب الروبوتات باستخدام ذكاء اصطناعي يُولِّد عوالم افتراضية واقعية وقابلة للتحكم

الروابط ذات الصلة