3달 전

모달리티 무관 디코딩과 근접 기반 모달리티 앙상블을 통한 강건한 다중모달 3D 객체 탐지

Juhan Cha, Minseok Joo, Jihwan Park, Sanghyeok Lee, Injae Kim, Hyunwoo J. Kim
모달리티 무관 디코딩과 근접 기반 모달리티 앙상블을 통한 강건한 다중모달 3D 객체 탐지
초록

최근 3차원 객체 탐지 기술의 발전은 다중 시점 카메라와 LiDAR 센서로부터 얻은 다중 모달 정보에 크게 기여해 왔다. 그러나 이러한 모달 간 고유한 차이점으로 인해 상당한 도전 과제가 존재한다. 기존의 다중 모달 3차원 객체 탐지 기법들은 LiDAR 센서에 과도하게 의존하며, 카메라를 의미 정보를 보완하는 보조적 모달로 간주하는 경향이 있다. 이는 카메라 데이터의 잠재적 활용이 제한되는 것은 물론, LiDAR 데이터가 제공되지 않는 환경에서 성능이 크게 저하되는 결과를 초래한다. 또한, 기존의 융합 방법들은 환경 변화에 의해 유발되는 센서 노이즈가 탐지 성능에 미치는 부정적인 영향을 간과하고 있다. 본 논문에서는 각각의 가용한 모달로부터 3차원 객체 탐지에 필수적인 정보를 효과적으로 활용하면서도, 융합 과정에서 손상된 신호로부터 보호하는 방식으로 LiDAR에 대한 과도한 의존 문제를 해결하기 위해 MEFormer을 제안한다. 구체적으로, 입력 모달에 관계없이 공유된 트랜스포머 디코더를 통해 기하학적 및 의미적 특징을 추출하는 모달 무관 디코딩(MODality-Agnostic Decoding, MOAD)을 도입하여 단일 모달 및 다중 모달 환경 모두에서 유의미한 성능 향상을 달성한다. 더불어, 환경에 따라 각 모달의 강점을 적절히 활용하면서 노이즈가 발생하는 센서의 영향을 완화하는 근접 기반 모달 통합(PProximity-based Modality Ensemble, PME) 모듈을 제안한다. 제안한 MEFormer은 nuScenes 검증 세트에서 73.9%의 NDS 및 71.5%의 mAP를 기록하며 최신 기술 수준의 성능을 달성하였다. 광범위한 분석을 통해 MEFormer이 센서 고장이나 환경 변화와 같은 어려운 조건에 대해 뛰어난 강건성을 보임을 입증하였다. 소스 코드는 https://github.com/hanchaa/MEFormer 에서 공개되어 있다.