11일 전

시각 중심의 다중 모달 전문 지식을 활용한 3D 객체 탐지

Linyan Huang, Zhiqi Li, Chonghao Sima, Wenhai Wang, Jingdong Wang, Yu Qiao, Hongyang Li
시각 중심의 다중 모달 전문 지식을 활용한 3D 객체 탐지
초록

현재 연구는 주로 LiDAR 기반 또는 다중 모달 기반의 전문 모델(Expert)로부터 전달된 지식을 통해 카메라 기반 3D 객체 탐지기(학습생, Apprentice)의 정확도를 향상시키는 데 집중하고 있다. 그러나 LiDAR 특징과 카메라 특징 사이에 존재하는 도메인 갭(Domain Gap)과 시간적 융합에서의 본질적인 불일치가, 학습생 모델에 대한 지식 전달 기반 개선의 효과를 크게 저해하고 있다. 유니모달 지식 전달의 성공 사례에 영감을 받아, 학습생 친화적인 전문 모델은 카메라 특징에 주로 의존하면서도 다중 모달 모델과 비슷한 성능을 달성할 수 있어야 한다. 이를 위해 우리는 카메라 기반 학습생 모델의 성능을 향상시키기 위한 프레임워크인 VCD를 제안한다. 이 프레임워크는 학습생 친화적인 다중 모달 전문 모델과 시간적 융합에 적합한 지식 전달 감독을 포함한다. 다중 모달 전문 모델인 VCD-E는 카메라 기반 학습생과 동일한 구조를 채택함으로써 특징 불일치를 완화하며, LiDAR 입력을 깊이 사전 지식(Depth Prior)으로 활용하여 3D 장면을 재구성함으로써 타의 유사한 비동질적 다중 모달 전문 모델과 비슷한 성능을 달성한다. 또한, 각 객체의 운동 불일치를 개별적으로 보정하기 위해 세밀한 궤적 기반 지식 전달 모듈을 도입하였다. 이러한 개선들을 통해, 본 연구의 카메라 기반 학습생 모델인 VCD-A는 nuScenes 데이터셋에서 63.1%의 NDS 점수를 기록하며 새로운 최고 성능(SOTA)을 달성하였다.

시각 중심의 다중 모달 전문 지식을 활용한 3D 객체 탐지 | 최신 연구 논문 | HyperAI초신경