16 天前
仅使用2D图像监督进行3D语义分割学习
Kyle Genova, Xiaoqi Yin, Abhijit Kundu, Caroline Pantofaru, Forrester Cole, Avneesh Sud, Brian Brewington, Brian Shucker, Thomas Funkhouser

摘要
随着城市测绘与自动驾驶技术的快速发展,来自地面平台的激光雷达(LiDAR)扫描仪与彩色相机所采集的原始三维数据呈现爆炸式增长。然而,由于标注成本高昂,真实世界中的三维语义分割标注数据在数量和地理多样性方面均十分有限,且难以在不同传感器之间迁移。相比之下,包含真实语义分割标注的大规模二维图像数据集则广泛存在于多种场景之中。本文研究如何仅利用这些已标注的二维图像数据,来监督训练三维语义分割模型。我们的方法是:通过多视角融合技术,从二维语义图像分割结果中生成伪标签(pseudo-labels),并以此训练三维模型。针对该方法提出了一系列新挑战,包括如何选择可信的伪标签、如何对稀有物体类别进行三维场景的有效采样,以及在训练过程中如何解耦输入的二维图像特征与伪标签之间的关联。所提出的网络架构——2D3DNet,在一个全新的城市数据集上取得了显著优于基线模型的性能,该数据集涵盖了五大洲20座城市的LiDAR与图像数据,mIoU指标提升达6.2至11.4个百分点。