2 个月前

SAM4D:在相机和激光雷达流中分割任何物体

Jianyun Xu, Song Wang, Ziqian Ni, Chunyong Hu, Sheng Yang, Jianke Zhu, Qiang Li
SAM4D:在相机和激光雷达流中分割任何物体
摘要

我们介绍了SAM4D,这是一种多模态和时序基础模型,旨在实现相机和激光雷达流之间的可提示分割。为了在共享的三维空间中对齐相机和激光雷达特征,引入了统一多模态位置编码(UMPE),从而实现了无缝的跨模态提示和交互。此外,我们提出了运动感知跨模态记忆注意力机制(MCMA),该机制利用自我运动补偿来增强时间一致性并改善长时域特征检索,确保在动态变化的自动驾驶场景中进行稳健的分割。为避免标注瓶颈,我们开发了一种多模态自动化数据引擎,该引擎通过协同VFM驱动的视频掩码片段、时空4D重建以及跨模态掩码片段融合来生成相机-激光雷达对齐的伪标签。这一框架以比人工标注快几个数量级的速度生成伪标签,同时保留了点云表示中的VFM派生语义保真度。我们在构建的Waymo-4DSeg数据集上进行了广泛的实验,结果表明所提出的SAM4D具有强大的跨模态分割能力和在数据标注方面的巨大潜力。