3달 전

FocalFormer3D: 3D 객체 탐지에서 어려운 인스턴스에 집중하기

Yilun Chen, Zhiding Yu, Yukang Chen, Shiyi Lan, Animashree Anandkumar, Jiaya Jia, Jose Alvarez
FocalFormer3D: 3D 객체 탐지에서 어려운 인스턴스에 집중하기
초록

3D 객체 탐지에서의 거짓 음성(False negatives, FN) — 예를 들어 보행자, 차량 또는 기타 장애물의 예측을 놓치는 경우 — 는 자율 주행 시스템에서 잠재적으로 위험한 상황을 초래할 수 있다. 이러한 문제는 치명적인 영향을 미치지만, 현재 많은 3D 탐지 기법에서는 충분히 연구되지 않은 상태이다. 본 연구에서는 다단계 방식으로 FN을 탐지하고, 모델이 어려운 예시를 효과적으로 탐색하도록 유도하는 일반적인 파이프라인인 Hard Instance Probing (HIP)을 제안한다. 3D 객체 탐지에 적용하여, 어려운 객체를 효과적으로 탐지하고 예측 재현율을 향상시키는 데 뛰어난 성능을 보이는 단순하면서도 효과적인 탐지기인 FocalFormer3D를 설계하였다. FocalFormer3D는 어려운 객체를 탐지하기 위한 다단계 쿼리 생성 기능과, 수많은 후보 객체 중에서 객체를 효율적으로 구분하는 박스 수준의 트랜스포머 디코더를 특징으로 한다. nuScenes 및 Waymo 데이터셋에서의 실험 결과를 통해 FocalFormer3D의 우수한 성능이 입증되었다. 이 성능은 LiDAR 및 멀티모달 환경 모두에서 탐지 및 추적 성능 측면에서 뛰어난 결과를 보여주며, 특히 nuScenes 탐지 벤치마크에서 70.5 mAP와 73.9 NDS를 달성했으며, nuScenes 추적 벤치마크에서는 72.1 AMOTA를 기록하여 LiDAR 리더보드에서 1위를 차지했다. 본 연구의 코드는 \url{https://github.com/NVlabs/FocalFormer3D}에서 공개되어 있다.