LabelDistill: 라벨 안내형 크로스 모달 지식 증류 기법을 이용한 카메라 기반 3D 객체 검출

최근 카메라 기반 3D 객체 검출 분야에서 LiDAR 3D 검출기와의 성능 차이를 줄이기 위해 모달 간 지식 전달(cross-modal knowledge distillation)이 도입되었습니다. LiDAR 포인트 클라우드에 포함된 정확한 기하학적 정보를 활용함으로써 이러한 접근법은 성능 향상에 기여하고 있습니다. 그러나, 기존의 모달 간 지식 전달 방법들은 먼 거리나 가려진 객체에서 발생하는 측정의 모호성과 같은 LiDAR의 고유한 불완전성을 무시하는 경향이 있으며, 이는 이미지 검출기에 전달되어서는 안 됩니다.이러한 LiDAR 교사모델의 불완전성을 완화하기 위해, 우리는 지면 진실 라벨(ground truth labels)로부터 알레아토릭 불확실성(aleatoric uncertainty)을 제거한 특징을 활용하는 새로운 방법을 제안합니다. 기존의 라벨 가이던스 접근법과 달리, 교사모델의 헤드(head) 역함수(inverse function)를 근사하여 효과적으로 라벨 입력을 특징 공간에 임베딩합니다. 이 접근법은 LiDAR 교사모델과 함께 추가적인 정확한 가이던스를 제공하여 이미지 검출기의 성능을 향상시키는 역할을 합니다.또한, 우리는 학생모델의 독특한 특징을 유지하면서 교사모델로부터 지식을 효과적으로 전송하는 특징 분할(feature partitioning) 방법을 소개합니다. 이를 통해 두 모달 모두의 잠재력을 최대화할 수 있습니다. 실험 결과, 우리의 접근법은 베이스라인 모델에 비해 mAP와 NDS를 각각 5.1포인트와 4.9포인트 개선하였으며, 이는 우리 접근법의 유효성을 입증하고 있습니다. 코드는 https://github.com/sanmin0312/LabelDistill 에서 확인할 수 있습니다.