3달 전

포인트 투 볌(Knowledge Distillation for LiDAR Semantic Segmentation)

Yuenan Hou, Xinge Zhu, Yuexin Ma, Chen Change Loy, Yikang Li
포인트 투 볌(Knowledge Distillation for LiDAR Semantic Segmentation)
초록

이 논문은 LiDAR 세분화 작업을 위한 대규모 교사 모델에서 소형 학습자 네트워크로 지식을 전달하는 지식 증류 문제를 다룬다. 기존의 증류 기법을 직접 적용할 경우, 점군(point cloud)의 본질적인 특성인 희소성(sparse), 무작위성(randomness), 밀도의 변화(varied density)로 인해 성능이 저하되는 문제가 발생한다. 이러한 문제를 해결하기 위해, 본 연구에서는 점 수준과 복셀 수준에서 모두 숨겨진 지식을 전달하는 Point-to-Voxel Knowledge Distillation(PVD)을 제안한다. 구체적으로, 먼저 점 수준과 복셀 수준의 출력을 동시에 증류하여 희소한 감독 신호를 보완한다. 또한 구조적 정보를 더 효과적으로 활용하기 위해 전체 점군을 여러 개의 감독 복셀(supervoxels)로 분할하고, 희귀 클래스나 멀리 떨어진 객체를 포함한 복셀을 더 자주 샘플링할 수 있도록 난이도 인지 샘플링 전략을 설계한다. 이러한 감독 복셀 기반으로, 점 간 및 복셀 간의 유사도 증류(inter-point 및 inter-voxel affinity distillation)를 제안하며, 점과 복셀 간의 유사성 정보를 통해 학습자 모델이 주변 환경의 구조적 특징을 더 잘 학습할 수 있도록 한다. 제안된 PVD는 대표적인 두 가지 LiDAR 세분화 벤치마크인 nuScenes와 SemanticKITTI에서 광범위한 실험을 수행하였으며, 세 가지 주요 백본 모델인 Cylinder3D, SPVNAS, MinkowskiNet 모두에서 기존 증류 기법 대비 뚜렷한 성능 향상을 보였다. 특히 도전적인 nuScenes 및 SemanticKITTI 데이터셋에서, 제안한 방법은 경쟁력 있는 Cylinder3D 모델 기준으로 약 75%의 MACs 감소와 2배의 속도 향상을 달성하였으며, SemanticKITTI 리더보드에서 발표된 모든 알고리즘 중 1위를 기록하였다. 본 연구의 코드는 https://github.com/cardwing/Codes-for-PVKD 에서 공개되어 있다.