11일 전

GeoBEV: 다중 시점 3D 객체 탐지를 위한 기하학적 BEV 표현 학습

Jinqing Zhang, Yanan Zhang, Yunlong Qi, Zehua Fu, Qingjie Liu, Yunhong Wang
GeoBEV: 다중 시점 3D 객체 탐지를 위한 기하학적 BEV 표현 학습
초록

Bird's-Eye-View(BEV) 표현은 다중 시점 3D 객체 탐지에서 주류 파라다임으로 부상하며 뛰어난 인지 능력을 보여주고 있다. 그러나 기존의 방법들은 BEV 표현의 기하학적 품질을 간과하여 낮은 해상도 상태로 유지하고, 장면의 실제 기하정보를 복원하지 못하고 있다. 본 논문에서는 이전 접근법의 한계를 식별하고, BEV 표현의 기하학적 품질을 제한하는 원인을 분석한 후, 고해상도 밀집 BEV 표현을 효율적으로 생성하여 세밀한 기하정보를 복원할 수 있는 새로운 특징 변환 기법인 Radial-Cartesian BEV Sampling(RC-Sampling)을 제안한다. 또한, LiDAR 포인트로부터 전통적으로 생성되는 깊이 레이블을 대체할 수 있는 새로운 In-Box 레이블을 설계하였다. 이 레이블은 물체의 표면 정보가 아니라 실제 기하 구조를 반영하며, BEV 표현에 현실 세계의 기하 정보를 직접 주입한다. In-Box 레이블과 함께, 물체의 내부 기하 구조를 효과적으로 포착할 수 있도록 Centroid-Aware Inner Loss(CAI Loss)를 개발하였다. 마지막으로, 위의 모든 모듈을 통합하여 새로운 다중 시점 3D 객체 탐지기인 GeoBEV를 제안하였으며, 이는 nuScenes 테스트 세트에서 66.2%의 NDS 성능을 달성하여 최신 기술 수준을 확보하였다. 코드는 https://github.com/mengtan00/GeoBEV.git 에서 공개되어 있다.

GeoBEV: 다중 시점 3D 객체 탐지를 위한 기하학적 BEV 표현 학습 | 최신 연구 논문 | HyperAI초신경