HyperAI超神经

ShapeLLM-Omni:一种用于3D生成和理解的原生多模态大语言模型

Junliang Ye, Zhengyi Wang, Ruowen Zhao, Shenghao Xie, Jun Zhu
发布日期: 6/4/2025
ShapeLLM-Omni:一种用于3D生成和理解的原生多模态大语言模型
摘要

近日,ChatGPT-4o 强大的文本到图像生成能力引发了对原生多模态大语言模型的日益关注。然而,其多模态能力仍局限于图像和文本。除了图像之外,理解和生成三维内容的能力同样重要。为了解决这一问题,我们提出了一种名为 ShapeLLM-Omni 的原生三维大语言模型,该模型能够在任意顺序下理解和生成三维资产及文本。首先,我们训练了一个三维向量量化变分自编码器(VQVAE),该编码器将三维对象映射到离散的潜在空间中,以实现高效且精确的形状表示和重建。在此基础上,我们创新性地构建了一个大规模连续训练数据集,命名为 3D-Alpaca,涵盖了生成、理解与编辑等方面的内容,从而为未来的科研和训练提供了丰富的资源。最后,通过对 Qwen-2.5-vl-7B-Instruct 模型在 3D-Alpaca 数据集上进行基于指令的训练,我们的工作为扩展多模态模型的基本三维能力提供了一次有效的尝试,并有助于未来在原生三维人工智能领域的研究。项目页面:https://github.com/JAMESYJL/ShapeLLM-Omni