HyperAI超神经

研究人员正利用生成式人工智能打造更真实、多样的虚拟训练环境，以加速机器人的学习进程。尽管像ChatGPT这样的聊天机器人能处理写作、编程等任务，但它们依赖的是海量文本数据，而机器人要掌握在家庭或工厂中操作物体的技能，需要的是真实世界的动作示范——类似于“如何摆放餐具”或“如何堆叠物品”的视频教学。传统方式中，通过真实机器人收集训练数据耗时且难以重复，而现有的模拟环境往往物理不真实，或需人工逐个搭建。为解决这一难题，麻省理工学院计算机科学与人工智能实验室（CSAIL）与丰田研究院的研究团队提出了一种名为“可调控场景生成”（steerable scene generation）的新方法。该系统基于扩散模型，通过“引导”AI从随机噪声中生成逼真的3D场景，如厨房、客厅或餐厅。它利用超过4400万组3D房间数据进行训练，能自动将已有物体模型合理布局，并修正常见问题，如物体穿模（“clipping”），确保物理合理性。例如，叉子不会穿过碗，而是自然地放在其上方。核心创新在于采用“蒙特卡洛树搜索”（MCTS）策略，将场景生成视为一个逐步决策过程。系统会尝试多种布局方案，评估其物理真实度或目标达成度（如“尽可能多放可食用物品”），最终选出最优解。在一项实验中，系统将原本平均含17件物品的餐厅场景，扩展至最多34件，包括多层蒸笼，远超原始训练数据的复杂度。此外，系统还支持通过自然语言指令生成场景，如“一个有四个苹果和一个碗的餐桌”。实验显示，其准确率高达98%（储物架场景）和86%（杂乱早餐桌），显著优于现有方法。用户还可通过轻量提示（如“用相同物品重新排列”）实现场景变换，系统能智能填补空白区域，保持原有结构。研究人员认为，该方法的关键在于能突破原始训练数据的分布限制，生成更符合实际任务需求的“理想场景”。这些虚拟环境已成功用于训练虚拟机器人完成摆放餐具、分餐等动作，过程流畅自然。目前该技术仍属概念验证阶段。未来团队希望利用AI生成全新物体与互动结构（如可开合的柜门或瓶罐），进一步提升场景交互性。专家指出，这一框架为大规模自动化场景生成提供了高效路径，结合互联网海量数据，有望推动机器人在真实世界中的高效部署。该成果已在机器人学习会议（CoRL）上发表，研究获亚马逊与丰田研究院支持。

相关链接

相关链接

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

Command Palette

生成式AI打造虚拟训练场，赋能机器人智能跃升

相关链接

Command Palette

生成式AI打造虚拟训练场，赋能机器人智能跃升

相关链接

Command Palette

生成式AI打造虚拟训练场，赋能机器人智能跃升

相关链接

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化

当多模态开始卷落地：MiniCPM-o-4.5 仅 9B 覆盖实时图像理解与文本生成；vLLM Omni 同时支持文本与多模态模型的高吞吐部署与服务化