2달 전

MatrixVT: 효율적인 다중 카메라에서 BEV 변환을 위한 3D 인식

Zhou, Hongyu ; Ge, Zheng ; Li, Zeming ; Zhang, Xiangyu
MatrixVT: 효율적인 다중 카메라에서 BEV 변환을 위한 3D 인식
초록

본 논문은 3D 인식을 위한 효율적인 다중 카메라에서 새의 눈 시점(Bird's-Eye-View, BEV)으로의 변환 방법인 MatrixVT를 제안합니다. 기존의 뷰 변환 방법들은 변환 효율성이 낮거나 장치 특유의 연산자에 의존하여 BEV 모델의 광범위한 적용을 방해하는 문제가 있었습니다. 이와 달리, 우리의 방법은 합성곱(convolutions)과 행렬 곱셈(Matrix Multiplication, MatMul)만을 사용하여 BEV 특징을 효율적으로 생성합니다. 구체적으로, 우리는 이미지 특징과 희소 Feature Transporting Matrix(FTM)의 MatMul로 BEV 특징을 설명하는 방법을 제안합니다. 이후 Prime Extraction 모듈이 도입되어 이미지 특징의 차원을 압축하고 FTM의 희소성을 줄이는 역할을 합니다. 또한, Ring & Ray Decomposition을 제안하여 FTM을 두 개의 행렬로 대체하고 파이프라인을 재구성하여 계산량을 더욱 줄입니다. 기존 방법들과 비교하여 MatrixVT는 더 빠른 속도와 적은 메모리 사용량을 제공하면서도 배포 용이성을 유지합니다. nuScenes 벤치마크에서 수행된 광범위한 실험 결과, 우리의 방법은 매우 효율적이며 객체 검출 및 맵 분할 작업에서 최신 연구(SOTA) 수준의 성능을 얻는 것으로 나타났습니다.

MatrixVT: 효율적인 다중 카메라에서 BEV 변환을 위한 3D 인식 | 최신 연구 논문 | HyperAI초신경