8 个月前

摘要

将点云投影到二维球形范围图像上，可以将激光雷达语义分割任务转化为在范围图像上的二维分割任务。然而，激光雷达范围图像与常规的二维RGB图像仍然存在本质差异；例如，范围图像中的每个位置都编码了独特的几何信息。本文提出了一种新的基于投影的激光雷达语义分割流水线，该流水线包括一种新颖的网络结构和高效的后处理步骤。在网络结构中，我们设计了一个FID（全插值解码）模块，该模块直接使用双线性插值对多分辨率特征图进行上采样。受PointNet++中使用的三维距离插值方法的启发，我们认为FID模块是在 $(θ, ϕ)$ 空间中的二维距离插值版本。作为一个无参数的解码模块，FID通过保持良好的性能大幅降低了模型复杂度。除了网络结构外，我们还发现模型预测结果在不同语义类别之间具有清晰的边界。这促使我们重新思考广泛使用的K近邻后处理是否仍有必要应用于我们的流水线中。随后，我们意识到多对一映射导致了一些点被映射到同一个像素并共享相同标签的现象，从而产生了模糊效应。因此，我们提出了一种NLA（最近标签分配）后处理方法来处理这些被遮挡的点，即将最近的预测标签分配给它们。消融研究表明，NLA后处理步骤比KNN具有更好的性能和更快的推理速度。在SemanticKITTI数据集上，我们的流水线在所有基于投影的方法以及所有逐点解决方案中均以 $64 \times 2048$ 分辨率实现了最佳性能。使用ResNet-34作为骨干网络时，我们的模型可以在单个11G内存的RTX 2080 Ti显卡上完成训练和测试。代码已开源发布。