2 个月前
Point-Bind & Point-LLM:多模态点云对齐用于三维理解、生成和指令跟随
Guo, Ziyu ; Zhang, Renrui ; Zhu, Xiangyang ; Tang, Yiwen ; Ma, Xianzheng ; Han, Jiaming ; Chen, Kexin ; Gao, Peng ; Li, Xianzhi ; Li, Hongsheng ; Heng, Pheng-Ann

摘要
我们介绍了Point-Bind,这是一种3D多模态模型,可以将点云与2D图像、语言、音频和视频对齐。在ImageBind的指导下,我们在3D和多模态之间构建了一个联合嵌入空间,从而实现了许多有前景的应用,例如任意到3D生成(any-to-3D generation)、3D嵌入算术(3D embedding arithmetic)和3D开放世界理解(3D open-world understanding)。在此基础上,我们进一步提出了Point-LLM,这是首个遵循3D多模态指令的3D大语言模型(LLM)。通过参数高效的微调技术,Point-LLM将Point-Bind的语义注入到预训练的大语言模型中,例如LLaMA,该模型无需3D指令数据,但表现出卓越的3D和多模态问答能力。我们希望我们的工作能够为社区在扩展3D点云至多模态应用方面提供启示。代码可在以下地址获取:https://github.com/ZiyuGuo99/Point-Bind_Point-LLM。