6일 전

GMF-Drive: 공간 인지 BEV 표현을 갖춘 게이트형 Mamba 융합 기반 엔드투엔드 자율 주행

Jian Wang, Chaokang Jiang, Haitao Xu
GMF-Drive: 공간 인지 BEV 표현을 갖춘 게이트형 Mamba 융합 기반 엔드투엔드 자율 주행
초록

기반 확산 모델은 엔드투엔드 자율주행 분야에서 최신 기준을 재정의하고 있으나, 트랜스포머 기반 융합에 대한 의존도가 증가함에 따라 성능이 점차 제한되고 있다. 이러한 아키텍처는 근본적인 한계를 안고 있다. 먼저, 2차원 계산 복잡도는 고해상도 특징의 사용을 제한하며, 공간적 사전 지식의 부재로 Bird's Eye View(BEV) 표현의 내재적 구조를 효과적으로 모델링하지 못한다. 본 논문은 이러한 문제를 해결하기 위해 두 가지 체계적인 혁신을 도입한 엔드투엔드 프레임워크인 GMF-Drive(Gated Mamba Fusion for Driving)를 제안한다. 첫째, 정보 제한이 큰 히스토그램 기반 LiDAR 표현을 대체하여, 형상 기술자와 통계적 특징을 포함하는 기하학적으로 보강된 기둥 형식 표현을 도입함으로써 3차원 기하학적 세부 정보를 효과적으로 보존한다. 둘째, 비용이 큰 트랜스포머를 대체할 수 있는 고도로 효율적이고 공간 인지 능력을 갖춘 상태공간 모델(SSM)을 활용한 새로운 계층적 게이트형 마마(기반) 융합(GM-Fusion) 아키텍처를 제안한다. 본 연구의 핵심인 BEV-SSM은 방향성 시퀀싱과 적응형 융합 메커니즘을 활용하여 선형 복잡도로 장거리 종속성을 효과적으로 포착하면서도 주행 환경의 고유한 공간적 특성을 명시적으로 고려한다. 도전적인 NAVSIM 벤치마크에서 실시한 광범위한 실험 결과, GMF-Drive는 기존 최고 성능을 상회하는 새로운 최신 기준 성능을 달성하였으며, DiffusionDrive보다 뚜렷한 성능 우위를 보였다. 체계적인 아블레이션 연구를 통해 각 구성 요소의 유효성이 입증되었으며, 자율주행 작업에 특화된 SSM이 일반 목적 트랜스포머보다 성능과 효율성 면에서 뛰어남을 확인하였다.

GMF-Drive: 공간 인지 BEV 표현을 갖춘 게이트형 Mamba 융합 기반 엔드투엔드 자율 주행 | 최신 연구 논문 | HyperAI초신경