11일 전
SA-BEV: 다중 시점 3D 객체 탐지를 위한 의미 인지형 Birds-Eye-View 특징 생성
Jinqing Zhang, Yanan Zhang, Qingjie Liu, Yunhong Wang

초록
최근 들어, 순수 카메라 기반의 Bird's-Eye-View(BEV) 인식 기술은 경제적인 자율주행을 위한 실현 가능한 솔루션을 제공하고 있다. 그러나 기존의 BEV 기반 다중 시점 3D 검출기들은 이미지 특징을 모두 BEV 특징으로 변환하는 방식을 채택하고 있으며, 이 과정에서 배경 정보의 비율이 높아 객체 정보가 가려질 수 있는 문제를 고려하지 않고 있다. 본 논문에서는 이미지 특징의 의미론적 세그멘테이션을 기반으로 배경 정보를 필터링하고, 의미론적 인식을 고려한 BEV 특징으로 이미지 특징을 변환할 수 있는 의미론적 인식 BEV 풀링(Semantic-Aware BEV Pooling, SA-BEVPool)을 제안한다. 이를 바탕으로 의미론적 인식 BEV 특징과 잘 맞물리는 효과적인 데이터 증강 전략인 BEV-Paste를 제안한다. 또한, 작업별 정보와 태스크 간 정보를 통합하여 깊이 분포와 의미론적 세그멘테이션을 더 정확하게 예측하는 다중 스케일 크로스태스크(Multi-Scale Cross-Task, MSCT) 헤드를 설계하였다. 이는 의미론적 인식 BEV 특징의 품질을 더욱 향상시킨다. 마지막으로, 위의 모듈들을 통합하여 새로운 다중 시점 3D 객체 검출 프레임워크인 SA-BEV를 제안한다. nuScenes 데이터셋을 기반으로 한 실험 결과, SA-BEV는 최신 기술 수준(SOTA)의 성능을 달성하였다. 코드는 https://github.com/mengtan00/SA-BEV.git 에 공개되어 있다.