
摘要
大规模视觉语言模型(VLMs)在二维视觉理解任务中取得了显著进展,激发了将其能力拓展至三维场景理解的广泛兴趣。然而,当前的三维视觉语言模型(3D VLMs)由于高质量空间数据的匮乏以及视角假设的静态性,往往在鲁棒推理与泛化能力方面面临挑战。为应对这些难题,我们提出了一种名为3D-R1的基础模型,旨在提升3D VLMs的推理能力。具体而言,我们首先利用现有的3D-VL数据集和基于Gemini 2.5 Pro构建的数据引擎,构建了一个高质量的合成数据集——Scene-30K,该数据集包含思维链(CoT)标注,可作为3D-R1的冷启动初始化数据。此外,在强化学习训练过程中,我们引入了类似GRPO的强化学习人类反馈(RLHF)策略,以增强模型的推理能力,并设计了三种奖励函数:感知奖励、语义相似性奖励和格式奖励,以保障检测精度与答案的语义准确性。同时,我们提出了一种动态视角选择策略,能够自适应地选取最具信息量的观察视角,以提升三维场景理解效果。大量实验表明,3D-R1在多个三维场景理解基准测试中平均性能提升达10%,充分验证了其在增强三维场景理解中的推理与泛化能力的有效性。代码地址:https://github.com/AIGeeksGroup/3D-R1;项目主页:https://aigeeksgroup.github.io/3D-R1。