2달 전

MonoDETR: 단일 카메라 기반 3D 객체 검출을 위한 깊이 안내된 트랜스포머

Zhang, Renrui ; Qiu, Han ; Wang, Tai ; Guo, Ziyu ; Tang, Yiwen ; Xu, Xuanzhuo ; Cui, Ziteng ; Qiao, Yu ; Gao, Peng ; Li, Hongsheng

논문 세부 정보 보기

MonoDETR: 단일 카메라 기반 3D 객체 검출을 위한 깊이 안내된 트랜스포머

초록

단일 카메라 3D 객체 검출은 자율 주행 분야에서 오랫동안 어려운 과제로 여겨져 왔습니다. 기존의 대부분 방법은 전통적인 2D 검출기에서 객체 중심을 먼저 위치 결정한 후, 인접한 특징들을 통해 3D 속성을 예측하는 방식을 따릅니다. 그러나, 단지 국소 시각적 특징만 사용하는 것은 장면 수준의 3D 공간 구조를 이해하기에 충분하지 않으며, 객체 간의 장거리 깊이 관계를 무시합니다. 본 논문에서는 깊이 정보를 활용한 단일 카메라 검출을 위한 첫 번째 DETR 프레임워크인 MonoDETR(단일 카메라 DETR)를 소개합니다. 우리는 일반적인 트랜스포머를 깊이 인식 가능하도록 수정하여, 문맥적 깊이 신호로 전체 검출 과정을 안내합니다. 구체적으로, 객체의 외관을 포착하는 시각 인코더와 병렬로 전경 깊이 맵을 예측하고, 비국소적 깊이 임베딩을 추출하기 위해 깊이 인코더를 전문화하였습니다. 그런 다음, 3D 객체 후보들을 학습 가능한 쿼리로 정식화하고, 객체-장면 간의 깊이 상호작용을 수행하기 위한 깊이 안내 디코더를 제안하였습니다. 이 방법으로 각 객체 쿼리는 이미지상의 깊이 안내 영역에서 적응적으로 3D 속성을 추정하며, 더 이상 국소 시각적 특징에 제약받지 않습니다. KITTI 벤치마크에서 단일 카메라 이미지를 입력으로 사용할 때 MonoDETR는 최고 수준의 성능을 달성하며 추가적인 밀도 높은 깊이 주석 없이도 작동합니다. 또한 우리의 깊이 안내 모듈은 nuScenes 데이터셋에서 다중 뷰 3D 객체 검출기를 강화하는 플러그-앤플레이 방식으로도 활용될 수 있어 우수한 일반화 능력을 입증하였습니다. 코드는 https://github.com/ZrrSkywalker/MonoDETR 에서 제공됩니다.