17 天前

Lexicon3D:针对复杂3D场景理解的视觉基础模型探查

Man, Yunze, Zheng, Shuhong, Bao, Zhipeng, Hebert, Martial, Gui, Liang-Yan, Wang, Yu-Xiong
Lexicon3D:针对复杂3D场景理解的视觉基础模型探查
摘要

三维复杂场景理解近年来受到越来越多关注,其中场景编码策略在这一进展中起到了关键作用。然而,针对不同应用场景的最优场景编码方法仍不明确,尤其相较于基于图像的编码方法而言。为解决这一问题,本文开展了一项系统性研究,全面考察了多种视觉编码模型在三维场景理解中的表现,深入分析了各类模型在不同场景下的优势与局限性。我们的评估涵盖了七种视觉基础编码器,包括基于图像、基于视频以及三维基础模型。在四个任务中对这些模型进行了综合评测:视觉-语言场景推理、视觉定位、分割与配准,每个任务聚焦于场景理解的不同方面。研究得出若干关键发现:DINOv2 在整体性能上表现优异;视频类模型在物体级别任务中具有显著优势;扩散模型在几何相关任务中表现突出;而经过语言预训练的模型在语言相关任务中却表现出意料之外的局限性。这些发现挑战了部分传统认知,为视觉基础模型的合理利用提供了新的视角,并强调了未来在视觉-语言及场景理解任务中,亟需采用更具灵活性的编码器选择策略。代码已开源:https://github.com/YunzeMan/Lexicon3D