X3KD: 다중 카메라 3D 객체 탐지를 위한 다중 모달리티, 다중 작업 및 다중 단계에 걸친 지식 증류

최근 3차원 객체 탐지(3DOD) 기술의 발전은 라이다 기반 모델에서 뛰어난 성능을 달성하고 있다. 반면, 여러 카메라 이미지를 기반으로 한 서라운드뷰 3DOD 모델은 시점 시각(PV, perspective view)에서 3차원 세계 표현으로의 특성 변환 과정에서 깊이 정보의 부재로 인해 모호성이 발생함에 따라 성능이 낮은 편이다. 본 논문에서는 다중 카메라 3DOD를 위한 종합적인 지식 증류(Knowledge Distillation, KD) 프레임워크인 X3KD를 제안한다. 이 프레임워크는 다양한 모달리티, 작업, 그리고 단계 간의 지식 증류를 통합적으로 수행한다. 구체적으로, 시점 시각 특성 추출 단계에서 인스턴스 세그멘테이션 교사(X-IS)를 활용한 교차 작업 증류를 제안하며, 이는 시점 시각에서 3차원 세계로의 변환 과정에서 발생할 수 있는 모호한 오류 역전파를 피하면서도 효과적인 감독 신호를 제공한다. 변환 이후에는 라이다 기반 3DOD 교사의 정보를 활용하여 다중 카메라 특성의 3차원 세계 표현을 개선하기 위해 교차 모달 특성 증류(X-FD)와 적대적 학습(X-AT)을 적용한다. 마지막으로, 예측 단계에서 밀집된 감독을 제공하기 위해 교차 모달 출력 증류(X-OD)도 활용한다. 본 연구는 다중 카메라 3DOD의 다양한 단계에서 지식 증류의 효과를 철저히 분석하고 ablation을 수행하였다. 최종적으로 제안한 X3KD 모델은 nuScenes 및 Waymo 데이터셋에서 기존 최고 성능 모델들을 상회하며, RADAR 기반 3DOD에도 일반화 가능함을 확인하였다. 시각적 결과 영상은 https://youtu.be/1do9DPFmr38 에서 확인할 수 있다.