3 个月前

统一多模态

Chunshi Wang Junliang Ye Yunhan Yang Yang Li Zizhuo Lin Jun Zhu Zhuo Chen Yawei Luo Chunchao Guo

摘要

我们提出 Part-X-MLLM，这是一种原生的3D多模态大语言模型，通过将各类3D任务统一建模为结构化、可执行的语法程序，实现对多样化3D任务的统一处理。给定一个RGB点云和自然语言提示，该模型能够自回归地生成单一、连贯的标记序列，其中编码了部件级别的边界框、语义描述以及编辑指令。这种结构化输出构成了一种通用接口，可驱动下游的几何感知模块，实现基于部件的生成与编辑任务。通过将符号规划与几何合成解耦，我们的方法使得任意兼容的几何引擎均可通过单一、语言原生的前端进行控制。我们采用双编码器架构进行预训练，以实现结构、语义与指令之间的解耦，并在大规模、以部件为中心的数据集上对模型进行指令微调。实验结果表明，该模型在生成高质量、结构化规划方面表现卓越，仅通过一个统一接口即可实现当前最先进的接地问答（grounded Q&A）、组合式生成与局部化编辑性能。项目主页：https://chunshi.wang/Part-X-MLLM/

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

3 个月前

统一多模态

Chunshi Wang Junliang Ye Yunhan Yang Yang Li Zizhuo Lin Jun Zhu Zhuo Chen Yawei Luo Chunchao Guo

摘要

我们提出 Part-X-MLLM，这是一种原生的3D多模态大语言模型，通过将各类3D任务统一建模为结构化、可执行的语法程序，实现对多样化3D任务的统一处理。给定一个RGB点云和自然语言提示，该模型能够自回归地生成单一、连贯的标记序列，其中编码了部件级别的边界框、语义描述以及编辑指令。这种结构化输出构成了一种通用接口，可驱动下游的几何感知模块，实现基于部件的生成与编辑任务。通过将符号规划与几何合成解耦，我们的方法使得任意兼容的几何引擎均可通过单一、语言原生的前端进行控制。我们采用双编码器架构进行预训练，以实现结构、语义与指令之间的解耦，并在大规模、以部件为中心的数据集上对模型进行指令微调。实验结果表明，该模型在生成高质量、结构化规划方面表现卓越，仅通过一个统一接口即可实现当前最先进的接地问答（grounded Q&A）、组合式生成与局部化编辑性能。项目主页：https://chunshi.wang/Part-X-MLLM/

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供