16일 전
BAEFormer: Bird's Eye View 세그멘테이션을 위한 양방향 및 조기 상호작용 트랜스포머
{Zhaoxiang Zhang, Wei Sui, Qian Zhang, Junran Peng, Yonghao He, Cong Pan}

초록
비행기 시점(Bird's Eye View, BEV) 세분화는 자율주행 기술에서 핵심적인 과제이다. 그러나 기존의 트랜스포머 기반 방법들은 원근 시점(Perspective View, PV)에서 BEV로의 변환 과정에서 단방향 및 후행적 상호작용 메커니즘으로 인해 어려움을 겪고 있다. 이 문제를 해결하기 위해, 우리는 (i) 조기 상호작용 기반 PV-BEV 파이프라인과 (ii) 양방향 크로스 어텐션 메커니즘을 포함하는 새로운 양방향 및 조기 상호작용 트랜스포머 프레임워크인 BAEFormer을 제안한다. 또한, 크로스 어텐션 모듈 내 이미지 특징 맵의 해상도가 최종 성능에 미치는 영향이 제한적임을 발견하였다. 이러한 중요한 관찰을 바탕으로, 입력 이미지의 크기를 확대하고 다중 시점 이미지 특징을 다운샘플링하여 상호작용을 수행하는 방식을 제안함으로써, 계산량을 제어하면서도 정확도를 더욱 향상시켰다. 제안하는 BEV 세분화 방법은 nuScenes 데이터셋에서 실시간 추론 속도 기준으로 최신 기술 수준의 성능을 달성하였으며, 단일 A100 GPU에서 45 FPS로 38.9 mIoU를 기록하였다.