11일 전
BEVFormer v2: 시점 감독을 통한 현대 이미지 백본의 Bird's-Eye-View 인식 적응
Chenyu Yang, Yuntao Chen, Hao Tian, Chenxin Tao, Xizhou Zhu, Zhaoxiang Zhang, Gao Huang, Hongyang Li, Yu Qiao, Lewei Lu, Jie Zhou, Jifeng Dai

초록
우리는 시점(퍼스펙티브) 감독을 도입한 새로운 Birds-Eye-View(BEV) 검출기(BEV detector)를 제안한다. 이 검출기는 기존보다 빠르게 수렴하며, 현대적인 이미지 백본(image backbone)과 더 잘 어울린다. 기존 최고 수준의 BEV 검출기는 VoVNet과 같은 특정 깊이 사전 학습된 백본에 종속되는 경우가 많아, 급성장하는 이미지 백본과 BEV 검출기 간의 시너지를 방해하고 있다. 이러한 한계를 해결하기 위해, 우리는 BEV 검출기의 최적화를 용이하게 하기 위해 시점 공간에서의 감독을 도입한다. 이를 위해, 시점 헤드에서 생성한 후보 영역(proposals)을 BEV 헤드로 전달하여 최종 예측을 수행하는 두 단계형 BEV 검출기를 제안한다. 제안된 모델의 효과를 평가하기 위해, 감독 방식의 형태와 제안된 검출기의 일반화 능력을 중심으로 광범위한 추상화 실험(ablation studies)를 수행하였다. 제안된 방법은 전통적이고 현대적인 다양한 이미지 백본에 대해 검증되었으며, 대규모 nuScenes 데이터셋에서 새로운 최고 성능(SoTA)을 달성하였다. 코드는 곧 공개될 예정이다.