2 个月前

CSFNet:一种用于驾驶场景实时RGB-X语义分割的余弦相似度融合网络

Danial Qashqai; Emad Mousavian; Shahriar Baradaran Shokouhi; Sattar Mirzakuchaki
CSFNet:一种用于驾驶场景实时RGB-X语义分割的余弦相似度融合网络
摘要

语义分割作为复杂视觉解释的关键组成部分,在自动驾驶车辆视觉系统中发挥着基础性作用。近期的研究通过利用互补信息和开发多模态方法,显著提高了语义分割的准确性。然而,尽管在准确性方面取得了进展,多模态语义分割方法仍面临计算复杂度高和推理速度低的问题。因此,在驾驶应用中实现多模态方法是一项具有挑战性的任务。为了解决这一问题,我们提出了一种实时RGB-X语义分割模型——余弦相似度融合网络(Cosine Similarity Fusion Network, CSFNet)。具体而言,我们设计了一个余弦相似度注意力融合模块(Cosine Similarity Attention Fusion Module, CS-AFM),该模块能够有效地校正和融合两种模态的特征。CS-AFM模块利用跨模态相似性来实现较高的泛化能力。通过增强较低层次的跨模态特征融合,CS-AFM为较高层次使用单分支网络铺平了道路。因此,我们在编码器中采用了双分支和单分支架构,并结合高效的上下文模块和轻量级解码器以实现快速而准确的预测。为了验证CSFNet的有效性,我们使用Cityscapes、MFNet和ZJU数据集进行了RGB-D/T/P语义分割实验。根据实验结果,CSFNet在准确性方面与现有最先进方法相当,同时在多模态语义分割模型的速度方面处于领先地位。此外,由于其参数数量少和计算复杂度低,CSFNet还实现了高效率。CSFNet的源代码将在https://github.com/Danial-Qashqai/CSFNet上提供。

CSFNet:一种用于驾驶场景实时RGB-X语义分割的余弦相似度融合网络 | 最新论文 | HyperAI超神经