8 个月前

摘要

大型二维视觉-语言模型（2D-LLMs）通过使用简单的投影器将大型语言模型（LLMs）与图像连接起来，已经引起了广泛关注。受其成功的启发，大型三维点云-语言模型（3D-LLMs）也开始将点云集成到LLMs中。然而，直接对齐点云与LLM需要高昂的训练成本，通常在A100 GPU上需要数百小时的训练时间，这阻碍了3D-LLMs的发展。本文介绍了一种高效且强大的三维点云-语言模型——MiniGPT-3D，该模型仅在一个RTX 3090 GPU上训练27小时即可实现多个最先进（SOTA）的结果。具体而言，我们提出利用来自2D-LLMs的二维先验知识来对齐三维点云与LLMs，从而利用2D和3D视觉信息之间的相似性。我们引入了一种新颖的四阶段级联模态对齐训练策略，以及一个混合查询专家模块以高效地自适应聚合特征。此外，我们采用了参数高效的微调方法LoRA和Norm微调，使得可学习参数仅为47.8M，比现有方法减少了多达260倍。大量实验表明，MiniGPT-3D在三维物体分类和描述任务中达到了最先进水平，并且训练成本显著降低。特别值得一提的是，在具有挑战性的物体描述任务中，MiniGPT-3D相比ShapeLLM-13B在GPT-4评估得分上提高了8.12分，而后者在8个A800 GPU上总共需要160小时的训练时间。我们是首个探索高效3D-LLM的研究团队，为社区提供了新的见解。代码和权重可在以下地址获取：https://github.com/TangYuan96/MiniGPT-3D。

源 PDF