
초록
LiDAR 기반 검출기나 실제 LiDAR 포인트 데이터를 활용하여 단안 3D 검출을 안내하는 방법은 Pseudo-LiDAR와 같은 기법들을 통해 큰 성능 향상을 가져왔다. 그러나 기존의 방법들은 일반적으로 엔드투엔드(end-to-end) 학습 전략을 적용하지 않고, LiDAR 정보를 충분히 활용하지 못해 LiDAR 데이터가 지닌 풍부한 잠재력을 제대로 발휘하지 못하고 있다. 본 논문에서는 단안 3D 검출을 위해, LiDAR 모달리티에서 이미지 모달리티로 특징과 응답 모두에 걸쳐 지식을 효율적이고 직접적으로 전이할 수 있는 크로스모달리티 지식 증류(Cross-Modality Knowledge Distillation, CMKD) 네트워크를 제안한다. 더불어, 대규모 레이블이 없는 데이터로부터 지식을 증류함으로써 CMKD를 반감독 학습 프레임워크로 확장하고, 성능을 크게 향상시켰다. 제출 시점까지 CMKD는 KITTI 테스트 세트 및 Waymo 밸리데이션 세트에서 단안 3D 검출기 중 1위를 기록하며, 이전 최고 성능 기법들에 비해 뚜렷한 성능 향상을 보였다.