
포인트 클라우드를 2D 구면 범위 이미지에 투영하면 LiDAR 의미 분할이 범위 이미지에서의 2D 분할 작업으로 변환됩니다. 그러나 LiDAR 범위 이미지는 여전히 일반적인 2D RGB 이미지와 본질적으로 다릅니다. 예를 들어, 범위 이미지의 각 위치는 고유한 기하학적 정보를 인코딩합니다. 이 논문에서는 새로운 투영 기반 LiDAR 의미 분할 파이프라인을 제안합니다. 이 파이프라인은 혁신적인 네트워크 구조와 효율적인 후처리 단계로 구성됩니다. 우리의 네트워크 구조에서, 우리는 FID (완전 보간 디코딩) 모듈을 설계하여 양선형 보간법을 사용하여 다중 해상도 피처 맵을 직접 업샘플링합니다. PointNet++에서 사용된 3D 거리 보간법에서 영감을 받았으며, 이 FID 모듈이 $(θ, ϕ)$ 공간에서의 2D 버전 거리 보간법이라고 주장합니다. 매개변수 없는 디코딩 모듈로서, FID는 성능을 유지하면서 모델 복잡성을 크게 줄입니다. 또한 네트워크 구조 외에도, 우리의 모델 예측이 다른 의미 클래스 간에 명확한 경계를 가지는 것을 경험적으로 발견했습니다. 이는 널리 사용되는 K-최근접 이웃(K-nearest-neighbor) 후처리가 우리 파이프라인에 여전히 필요한지 재고하게 만들었습니다. 그 결과, 여러 포인트가 동일한 픽셀로 매핑되고 같은 라벨을 공유하는 현상을 일으키는 다대일 매핑이 블러링 효과를 초래한다는 것을 깨달았습니다. 따라서 이러한 가려진 포인트들을 가장 가까운 예측 라벨로 할당하는 NLA (nearest label assignment) 후처리 단계를 제안합니다. 아바케이션 연구에서 NLA 후처리 단계는 KNN보다 더 나은 성능과 더 빠른 추론 속도를 보였습니다. SemanticKITTI 데이터셋에서 우리의 파이프라인은 $64 \times 2048$ 해상도와 모든 포인트별 솔루션 중에서 모든 투영 기반 방법들 중 최고의 성능을 달성했습니다. ResNet-34를 백본으로 사용할 경우, 우리의 모델은 단일 RTX 2080 Ti (11G 메모리)에서 학습과 테스트 모두 완료될 수 있습니다. 코드는 공개되었습니다.