Command Palette
Search for a command to run...

摘要
三维生成式人工智能的进展使得仅通过文本提示即可生成物理对象成为可能,但在涉及多种组件类型对象的构建方面仍面临挑战。本文提出了一种融合三维生成式人工智能与视觉-语言模型(VLMs)的系统流程,实现通过自然语言指令驱动机器人完成多组件物体的装配。我们的方法利用视觉-语言模型,实现零样本、多模态的几何与功能推理,将AI生成的网格模型分解为包含预定义结构组件和面板组件的多组件三维模型。实验表明,该VLM能够根据物体的功能需求,准确判断哪些网格区域除结构组件外还需添加面板组件。在多个测试对象上的评估结果显示,用户对VLM生成的组件分配方案的偏好度达到90.6%,显著高于基于规则的分配方式(59.4%)和随机分配方式(2.5%)。最后,系统支持用户通过对话式反馈对组件分配进行迭代优化,从而在生成式人工智能与机器人技术结合制造物理对象的过程中,赋予用户更高的控制权与自主性。