11일 전
M3DeTR: Transformer를 활용한 다중 표현, 다중 규모, 상호 관계 기반 3D 객체 탐지
Tianrui Guan, Jun Wang, Shiyi Lan, Rohan Chandra, Zuxuan Wu, Larry Davis, Dinesh Manocha

초록
3차원 객체 탐지를 위한 새로운 아키텍처인 M3DeTR를 제안한다. M3DeTR는 다중 스케일 특징 피라미드 기반으로 원시 포인트 클라우드, 복셀, 벌집 시점(Bird-Eye View) 등 다양한 포인트 클라우드 표현 방식과 다양한 특징 스케일을 통합한다. M3DeTR는 트랜스포머를 활용하여 다수의 포인트 클라우드 표현 방식과 특징 스케일을 동시에 통합하고, 포인트 클라우드 간의 상호 관계를 모델링하는 최초의 접근법이다. 광범위한 아블레이션 실험을 통해 표현 방식과 스케일의 융합, 그리고 관계 모델링의 효과를 입증하였다. 제안한 방법은 KITTI 3D 객체 탐지 데이터셋과 Waymo Open Dataset에서 최신 기술 수준의 성능을 달성하였다. 실험 결과, 단일 프레임 포인트 클라우드 입력 조건 하에서 Waymo Open Dataset에서 기준 모델 대비 전 클래스 평균 정밀도(mAP)를 1.48% 향상시켰다. 특히, 자동차 및 자전거 탑승자 클래스에서 유명한 KITTI 3D 탐지 벤치마크에서 모두 1위를 기록하였으며, 단일 프레임 포인트 클라우드 입력으로 Waymo Open Dataset에서도 1위를 달성하였다. 코드는 다음 링크에서 공개되어 있다: https://github.com/rayguan97/M3DETR.