6日前

GMF-Drive:空間認識型BEV表現を備えたゲート付きMamba融合によるエンドツーエンド自動運転

Jian Wang, Chaokang Jiang, Haitao Xu
GMF-Drive:空間認識型BEV表現を備えたゲート付きMamba融合によるエンドツーエンド自動運転
要約

拡散モデル(Diffusion-based models)は、エンドツーエンド型自動運転の性能水準を再定義しつつあるが、その性能はトランスフォーマーに基づく特徴融合に依存するあまり、次第に限界に直面している。これらのアーキテクチャには根本的な制約がある:二次時間計算量により高解像度の特徴の利用が制限され、空間的な事前知識(spatial priors)の欠如により、鳥瞰図(Bird's Eye View: BEV)表現が持つ本質的な構造を効果的にモデル化できない。本論文では、2つの原理的な革新を通じてこれらの課題を克服するエンドツーエンドフレームワーク「GMF-Drive(Gated Mamba Fusion for Driving)」を提案する。第一に、情報量に制限のあるヒストグラムベースのLiDAR表現を、形状記述子と統計特徴を含む幾何学的に拡張されたピラーフォーマットに置き換え、重要な3次元幾何学的詳細を保持する。第二に、高コストなトランスフォーマーを代替する、空間認識型かつ高効率な状態空間モデル(State-space model: SSM)を採用した新たな階層的ゲート付きマムバ融合(Hierarchical Gated Mamba Fusion: GM-Fusion)アーキテクチャを提案する。本研究の中心となるBEV-SSMは、方向性のある順序処理と適応的融合メカニズムを活用し、線形計算量で長距離依存関係を捉えつつ、運転シーン固有の空間的特性を明示的に尊重する。困難なNAVSIMベンチマークにおける広範な実験結果から、GMF-Driveは新たな最先端性能を達成し、DiffusionDriveを大きく上回ることを示した。包括的な消去実験(ablation studies)により、各構成要素の有効性が検証され、タスク特化型のSSMが、自動運転の文脈において汎用トランスフォーマーを性能および効率の両面で上回り得ることが明らかになった。

GMF-Drive:空間認識型BEV表現を備えたゲート付きMamba融合によるエンドツーエンド自動運転 | 最新論文 | HyperAI超神経