11일 전

CAPE: 다중 시점 3D 객체 탐지를 위한 카메라 시점 위치 임베딩

Kaixin Xiong, Shi Gong, Xiaoqing Ye, Xiao Tan, Ji Wan, Errui Ding, Jingdong Wang, Xiang Bai
CAPE: 다중 시점 3D 객체 탐지를 위한 카메라 시점 위치 임베딩
초록

이 논문에서는 다중 시점 이미지에서 3D 객체를 탐지하는 문제를 다룬다. 현재의 쿼리 기반 방법들은 이미지와 3D 공간 간의 기하학적 대응 관계를 학습하기 위해 전역 3D 위치 임베딩(PE)에 의존하고 있다. 본 연구에서는 전역 3D PE와 2D 이미지 특징 간의 직접적인 상호작용이 카메라 외부 파라미터의 변동으로 인해 시점 변환 학습의 난이도를 증가시킬 수 있다고 주장한다. 따라서 카메라 시점 위치 임베딩(CAmera view Position Embedding, CAPE)을 기반으로 하는 새로운 방법을 제안한다. 본 방법은 전역 좌표계가 아닌 로컬 카메라 시점 좌표계 하에서 3D 위치 임베딩을 구성함으로써, 카메라 외부 파라미터를 인코딩하는 것 없이 3D 위치 임베딩을 구현한다. 또한, 이전 프레임의 객체 쿼리를 활용하고 자율 운동(ego-motion)을 인코딩함으로써 CAPE를 시간적 모델링에 확장하여 3D 객체 탐지 성능을 향상시켰다. CAPE는 nuScenes 데이터셋에서 라이다를 사용하지 않는 모든 방법 중 최고 성능을 기록하였으며, NDS는 61.0%, mAP는 52.5%를 달성하였다. 코드와 모델은 \href{https://github.com/PaddlePaddle/Paddle3D}{Paddle3D} 및 \href{https://github.com/kaixinbear/CAPE}{PyTorch 구현}에서 제공된다.

CAPE: 다중 시점 3D 객체 탐지를 위한 카메라 시점 위치 임베딩 | 최신 연구 논문 | HyperAI초신경