Command Palette

Search for a command to run...

7 天前

Part-X-MLLM:面向部件感知的3D多模态大语言模型

Chunshi Wang Junliang Ye Yunhan Yang Yang Li Zizhuo Lin Jun Zhu Zhuo Chen Yawei Luo Chunchao Guo

Part-X-MLLM:面向部件感知的3D多模态大语言模型

摘要

我们提出 Part-X-MLLM,这是一种原生的3D多模态大语言模型,通过将各类3D任务统一建模为结构化、可执行的语法程序,实现对多样化3D任务的统一处理。给定一个RGB点云和自然语言提示,该模型能够自回归地生成单一、连贯的标记序列,其中编码了部件级别的边界框、语义描述以及编辑指令。这种结构化输出构成了一种通用接口,可驱动下游的几何感知模块,实现基于部件的生成与编辑任务。通过将符号规划与几何合成解耦,我们的方法使得任意兼容的几何引擎均可通过单一、语言原生的前端进行控制。我们采用双编码器架构进行预训练,以实现结构、语义与指令之间的解耦,并在大规模、以部件为中心的数据集上对模型进行指令微调。实验结果表明,该模型在生成高质量、结构化规划方面表现卓越,仅通过一个统一接口即可实现当前最先进的接地问答(grounded Q&A)、组合式生成与局部化编辑性能。项目主页:https://chunshi.wang/Part-X-MLLM/

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供