2달 전

BEVFormer: 다중 카메라 이미지에서 시공간 트랜스포머를 통해 조류 시점 표현 학습

Li, Zhiqi ; Wang, Wenhai ; Li, Hongyang ; Xie, Enze ; Sima, Chonghao ; Lu, Tong ; Yu, Qiao ; Dai, Jifeng
BEVFormer: 다중 카메라 이미지에서 시공간 트랜스포머를 통해 조류 시점 표현 학습
초록

3D 시각 인식 작업, 다중 카메라 이미지를 기반으로 하는 3D 감지 및 맵 분할을 포함하여, 자율 주행 시스템에 필수적입니다. 본 연구에서는 이러한 여러 자율 주행 인식 작업을 지원하기 위해 공간-시간 변환기를 사용하여 통합된 조감도(Bird's Eye View, BEV) 표현을 학습하는 새로운 프레임워크인 BEVFormer를 제시합니다. 간단히 말해, BEVFormer는 사전 정의된 격자 형태의 BEV 쿼리를 통해 공간과 시간 영역과 상호작용하면서 공간적 정보와 시간적 정보를 모두 활용합니다. 공간적 정보를 집계하기 위해 우리는 각 BEV 쿼리가 카메라 뷰 전반에 걸쳐 관심 영역에서 공간적 특성을 추출하도록 설계된 공간 크로스 어텐션(spatial cross-attention)을 개발했습니다. 시간적 정보에 대해서는 이전의 BEV 정보를 반복적으로 융합하는 시간 자기 어텐션(temporal self-attention)을 제안하였습니다. 우리의 접근 방식은 nuScenes \texttt{test} 세트에서 NDS 메트릭 측면에서 새로운 최고 수준인 56.9%를 달성하였으며, 이는 이전 최고 성능보다 9.0 포인트 높으며 LiDAR 기반 베이스라인의 성능과 맞먹습니다. 또한 우리는 BEVFormer가 저 가시성 조건 하에서 물체 속도 추정의 정확도와 물체 검출률(recall)을 크게 향상시키는 것을 보여주었습니다. 코드는 \url{https://github.com/zhiqi-li/BEVFormer}에서 확인할 수 있습니다.