2 个月前
PointLLM:赋能大规模语言模型理解点云数据
Xu, Runsen ; Wang, Xiaolong ; Wang, Tai ; Chen, Yilun ; Pang, Jiangmiao ; Lin, Dahua

摘要
大型语言模型(LLMs)的前所未有的进展对自然语言处理产生了深远的影响,但尚未完全进入三维理解领域。本文介绍了PointLLM,这是初步尝试填补这一空白的努力,使大型语言模型能够理解点云数据,并为超越二维视觉数据提供了新的途径。PointLLM能够根据人类指令理解彩色物体点云,并生成上下文合适的响应,展示了其对点云和常识的理解能力。具体而言,它利用了一个点云编码器与强大的大型语言模型相结合,有效融合了几何、外观和语言信息。我们收集了一个包含66万简单和7万复杂点-文本指令对的新颖数据集,以支持两阶段训练策略:首先是潜在空间对齐,然后是对统一模型进行指令调优。为了严格评估PointLLM的感知能力和泛化能力,我们建立了两个基准测试:生成式3D物体分类和3D物体描述生成,并通过三种不同的方法进行了评估,包括人工评估、GPT-4/ChatGPT评估以及传统指标。实验结果表明,PointLLM在现有2D和3D基线模型上表现出色,在人工评估的物体描述生成任务中超过50%的样本表现优于人类标注者。代码、数据集和基准测试可在https://github.com/OpenRobotLab/PointLLM 获取。