Command Palette
Search for a command to run...
Chunshi Wang Junliang Ye Yunhan Yang Yang Li Zizhuo Lin Jun Zhu Zhuo Chen Yawei Luo Chunchao Guo

摘要
我们提出 Part-X-MLLM,这是一种原生的3D多模态大语言模型,通过将各类3D任务统一建模为结构化、可执行的语法程序,实现对多样化3D任务的统一处理。给定一个RGB点云和自然语言提示,该模型能够自回归地生成单一、连贯的标记序列,其中编码了部件级别的边界框、语义描述以及编辑指令。这种结构化输出构成了一种通用接口,可驱动下游的几何感知模块,实现基于部件的生成与编辑任务。通过将符号规划与几何合成解耦,我们的方法使得任意兼容的几何引擎均可通过单一、语言原生的前端进行控制。我们采用双编码器架构进行预训练,以实现结构、语义与指令之间的解耦,并在大规模、以部件为中心的数据集上对模型进行指令微调。实验结果表明,该模型在生成高质量、结构化规划方面表现卓越,仅通过一个统一接口即可实现当前最先进的接地问答(grounded Q&A)、组合式生成与局部化编辑性能。项目主页:https://chunshi.wang/Part-X-MLLM/