11일 전

PolarFormer: Polar Transformer를 활용한 다중 카메라 3D 객체 탐지

Yanqin Jiang, Li Zhang, Zhenwei Miao, Xiatian Zhu, Jin Gao, Weiming Hu, Yu-Gang Jiang
PolarFormer: Polar Transformer를 활용한 다중 카메라 3D 객체 탐지
초록

자율 주행에서의 3D 객체 탐지의 목적은 3D 세계 속에서 관심 있는 객체가 ‘무엇’인지, 그리고 ‘어디에’ 있는지를 추론하는 것이다. 기존의 2D 객체 탐지 기법에서 오랫동안 관습적으로 사용되어 온 방식과 마찬가지로, 기존의 방법들은 서로 수직인 축을 가진 표준 카르테시안 좌표계를 사용하는 경우가 많다. 그러나 본 연구에서는 이러한 접근이 자동차 자체의 시점(ego car의 시점)의 본질에 부합하지 않는다고 지적한다. 각 차량 장착 카메라가 이미징 기하학의 본질적인 특성상 원추형(wedge) 형태로 세계를 인식하며, 이는 근본적으로 직각이 아닌 비직각(비수직) 축을 갖기 때문이다. 따라서 본 논문에서는 다각형 좌표계(Polar coordinate system)의 활용을 제안하며, 단일 다중 카메라 2D 이미지만을 입력으로 받아 Bird's-Eye-View(BEV)에서 보다 정확한 3D 객체 탐지를 수행하는 새로운 모델인 PolarFormer를 제안한다. 구체적으로, 입력 구조의 형태에 제약 없이 불규칙한 폴라 그리드를 처리할 수 있도록, 크로스 어텐션 기반의 폴라 탐지 헤드를 설계하였다. 또한 폴라 좌표계의 거리 방향에서 발생하는 제약 없는 객체 크기 변동 문제를 해결하기 위해, 다중 해상도 폴라 표현 학습 전략을 도입하였다. 그 결과, 본 모델은 기하학적 제약을 고려하여 시퀀스-투-시퀀스 방식으로 관련 이미지 관측에 주의를 기울이며, 폴라 표현을 래스터화하는 방식으로 최적의 표현을 활용할 수 있게 되었다. nuScenes 데이터셋을 대상으로 수행한 철저한 실험을 통해, 본 PolarFormer가 기존의 최첨단 3D 객체 탐지 기법들에 비해 유의미한 성능 우위를 보임을 입증하였다.

PolarFormer: Polar Transformer를 활용한 다중 카메라 3D 객체 탐지 | 최신 연구 논문 | HyperAI초신경