2 个月前

MiniGPT-3D:利用2D先验高效对齐3D点云与大型语言模型

Tang, Yuan ; Han, Xu ; Li, Xianzhi ; Yu, Qiao ; Hao, Yixue ; Hu, Long ; Chen, Min
MiniGPT-3D:利用2D先验高效对齐3D点云与大型语言模型
摘要

大型二维视觉-语言模型(2D-LLMs)通过使用简单的投影器将大型语言模型(LLMs)与图像连接起来,已经引起了广泛关注。受其成功的启发,大型三维点云-语言模型(3D-LLMs)也开始将点云集成到LLMs中。然而,直接对齐点云与LLM需要高昂的训练成本,通常在A100 GPU上需要数百小时的训练时间,这阻碍了3D-LLMs的发展。本文介绍了一种高效且强大的三维点云-语言模型——MiniGPT-3D,该模型仅在一个RTX 3090 GPU上训练27小时即可实现多个最先进(SOTA)的结果。具体而言,我们提出利用来自2D-LLMs的二维先验知识来对齐三维点云与LLMs,从而利用2D和3D视觉信息之间的相似性。我们引入了一种新颖的四阶段级联模态对齐训练策略,以及一个混合查询专家模块以高效地自适应聚合特征。此外,我们采用了参数高效的微调方法LoRA和Norm微调,使得可学习参数仅为47.8M,比现有方法减少了多达260倍。大量实验表明,MiniGPT-3D在三维物体分类和描述任务中达到了最先进水平,并且训练成本显著降低。特别值得一提的是,在具有挑战性的物体描述任务中,MiniGPT-3D相比ShapeLLM-13B在GPT-4评估得分上提高了8.12分,而后者在8个A800 GPU上总共需要160小时的训练时间。我们是首个探索高效3D-LLM的研究团队,为社区提供了新的见解。代码和权重可在以下地址获取:https://github.com/TangYuan96/MiniGPT-3D。

MiniGPT-3D:利用2D先验高效对齐3D点云与大型语言模型 | 最新论文 | HyperAI超神经