
초록
본 논문은 자율 주행 시나리오에서 고정밀 3D 객체 검출을 목표로 합니다. 우리는 LIDAR 포인트 클라우드와 RGB 이미지를 입력으로 받아 방향성 3D 바운딩 박스를 예측하는 감지 융합 프레임워크인 다중 뷰 3D 네트워크(MV3D)를 제안합니다. 희소한 3D 포인트 클라우드를 컴팩트한 다중 뷰 표현으로 인코딩합니다. 이 네트워크는 3D 객체 제안 생성과 다중 뷰 특징 융합을 위한 두 개의 하위 네트워크로 구성됩니다. 제안 네트워크는 3D 포인트 클라우드의 상공도(鳥瞰圖, bird's eye view) 표현에서 효율적으로 3D 후보 박스를 생성합니다. 우리는 여러 뷰에서 지역별 특징을 결합하고 서로 다른 경로의 중간 계층 간 상호 작용을 가능하게 하는 깊은 융합 방식을 설계했습니다. 어려운 KITTI 벤치마크에서의 실험 결과, 본 접근법이 3D 위치 추정 및 3D 검출 작업에서 기존 최신 기술보다 약 25%와 30%의 평균 정확도(AP)를 높게 나타냈습니다. 또한, LIDAR 기반 방법들 중 어려운 데이터에 대한 2D 검출에서는 본 접근법이 기존 최신 기술보다 10.3% 더 높은 AP를 얻었습니다.