
摘要
基于扩散模型的端到端自动驾驶系统正在重新定义该领域的最先进水平,然而其性能正日益受到对基于Transformer的特征融合机制依赖的制约。这类架构存在根本性局限:二次方计算复杂度限制了高分辨率特征的使用,而缺乏空间先验信息则导致其难以有效建模鸟瞰图(Bird's Eye View, BEV)表示中的固有结构。本文提出GMF-Drive(Gated Mamba Fusion for Driving),一种端到端自动驾驶框架,通过两项具有理论依据的创新克服上述挑战。首先,我们摒弃了信息受限的基于直方图的激光雷达表示方法,转而采用一种几何增强的柱状体(pillar)表示形式,该形式编码了形状描述符与统计特征,从而完整保留了关键的三维几何细节。其次,我们提出一种新型分层门控Mamba融合(GM-Fusion)架构,以高效且具备空间感知能力的状态空间模型(State-Space Model, SSM)替代计算开销高昂的Transformer。我们的核心BEV-SSM通过引入方向性序列建模与自适应融合机制,在线性计算复杂度下捕捉长距离依赖关系,同时显式地尊重驾驶场景独特的空间特性。在具有挑战性的NAVSIM基准测试上的大量实验表明,GMF-Drive实现了新的最先进性能,显著超越了DiffusionDrive。全面的消融实验验证了各组件的有效性,结果表明,针对特定任务设计的SSM在自动驾驶任务中,不仅性能更优,且效率更高,可超越通用Transformer模型。