2 个月前

学习引导的卷积网络用于深度补全

Jie Tang; Fei-Peng Tian; Wei Feng; Jian Li; Ping Tan

摘要

密集深度感知对于自动驾驶和其他机器人应用至关重要。然而，现代激光雷达（LiDAR）传感器仅提供稀疏的深度测量数据。因此，需要对这些稀疏的激光雷达数据进行补全，通常会使用同步的引导RGB图像来辅助这一过程。许多神经网络已经为此任务进行了设计，但它们往往简单地通过特征拼接或逐元素相加的方式将激光雷达数据和RGB图像信息融合在一起。受引导图像滤波的启发，我们设计了一种新颖的引导网络，用于从引导图像中预测核权重。这些预测的核随后被应用于提取深度图像特征。通过这种方式，我们的网络生成了内容相关且空间变化的核，用于多模态特征融合。动态生成的空间变化核可能会导致过高的GPU内存消耗和计算开销。为了减少计算和内存消耗，我们进一步设计了一种卷积分解方法。GPU内存的减少使得多阶段方案中的特征融合成为可能。我们在真实世界的室外、室内以及合成数据集上进行了全面的实验，以验证我们的方法。实验结果表明，我们的方法具有很强的效果，在NYUv2数据集上的表现优于现有最佳方法，并在提交时在KITTI深度补全基准测试中排名第一。此外，该方法在不同3D点密度、各种光照和天气条件以及跨数据集评估下均表现出强大的泛化能力。代码将在后续发布以供复现。