BEVDistill: 다중 뷰 3D 객체 탐지를 위한 다중 모달 BEV 디스틸레이션

다수의 이미지 뷰로부터 3D 객체 탐지는 시각적 장면 이해를 위한 핵심적이고 도전적인 과제이다. 낮은 비용과 높은 효율성 덕분에 다중 뷰 3D 객체 탐지는 매력적인 응용 가능성을 보여주고 있다. 그러나 시점( perspective ) 뷰만으로는 깊이 정보가 부족하기 때문에 객체를 정확하게 탐지하는 것은 매우 어렵다. 현재의 대부분의 접근법은 이미지 인코더에 무거운 백본(Backbone)을 사용하고 있어, 실세계 적용에 어려움이 있다. 이미지와 달리, LiDAR 포인트는 공간적 정보를 더 우수하게 제공하여 매우 정밀한 위치 추정이 가능하다. 본 논문에서는 다중 뷰 3D 객체 탐지에 LiDAR 기반 탐지기의 통합을 탐색한다. 깊이 예측 네트워크를 직접 학습하는 대신, Bird-Eye-View (BEV) 공간에서 이미지와 LiDAR 특징을 통합하고, 교사-학생 틀(Teacher-Student paradigm)을 통해 비동종 표현 간에 지식을 적응적으로 전이한다. 이를 위해 우리는 다중 뷰 3D 객체 탐지를 위한 교차 모달 BEV 지식 증류(KD) 프레임워크인 \textbf{BEVDistill}을 제안한다. 광범위한 실험 결과는 제안된 방법이 BEVFormer과 같은 매우 경쟁력 있는 베이스라인에서 현재의 KD 접근법보다 우수한 성능을 달성하면서도 추론 단계에서 추가적인 비용을 발생시키지 않음을 입증한다. 특히, 최적의 모델은 nuScenes 테스트 리더보드에서 59.4 NDS를 달성하여 다양한 이미지 기반 탐지기들과 비교해 새로운 최고 성능을 기록하였다. 코드는 https://github.com/zehuichen123/BEVDistill 에 공개될 예정이다.