MambaNeXt-YOLO:一种用于实时目标检测的混合状态空间模型
Xiaochun Lei, Siqi Wu, Weilin Wu, Zetao Jiang
发布日期: 6/9/2025

摘要
实时目标检测是计算机视觉中的一个基本但具有挑战性的任务,尤其是在计算资源有限的情况下。尽管YOLO系列模型通过平衡速度和精度设定了强大的基准,但对更丰富的全局上下文建模的需求不断增加,导致了基于Transformer架构的应用。然而,由于自注意力机制的存在,Transformer的计算复杂度较高,这限制了其在实时和边缘部署中的实用性。为了解决这些挑战,最近在线性状态空间模型(如Mamba)方面的发展提供了一种有前景的替代方案,通过线性复杂度实现了高效的序列建模。基于这一见解,我们提出了MambaNeXt-YOLO,这是一种新颖的目标检测框架,通过以下三项关键贡献平衡了精度和效率:(1) MambaNeXt模块:一种混合设计,将卷积神经网络(CNN)与Mamba结合,有效捕捉局部特征和长距离依赖;(2) 多分支非对称融合金字塔网络(MAFPN):一种增强的特征金字塔架构,提高了不同尺度目标的多尺度检测性能;(3) 面向边缘的高效性:我们的方法在PASCAL VOC数据集上达到了66.6%的mAP,在没有预训练的情况下实现了31.9 FPS的速度,并支持在NVIDIA Jetson Xavier NX和Orin NX等边缘设备上的部署。