
摘要
近年来,点云分析引起了研究人员的广泛关注,而三维语义分割仍是该领域的一大难题。现有的大多数深度点云模型直接在三维点云上进行学习,但在城市尺度的数据下,这些方法往往面临严重的稀疏性问题以及极高的数据处理负荷。为应对这一挑战,我们提出将三维点云转换为密集的鸟瞰图(bird’s-eye-view)投影。在此转换下,由于类别不平衡问题得到缓解,且能够有效利用多种二维语义分割方法,分割任务得以显著简化。在此基础上,我们进一步设计了一种基于注意力机制的融合网络,以实现对投影图像的多模态学习。最终,将二维分割结果重新映射回三维空间,生成三维语义分割结果。为验证所提方法的优势,我们在SensatUrban数据集上进行了多项实验,结果表明,我们的模型取得了具有竞争力的性能表现(平均交并比mIoU为61.17%,总体准确率Overall Accuracy为91.37%)。我们期望本工作能为点云分析领域的进一步研究提供启发。