8 个月前

摘要

语义分割作为复杂视觉解释的关键组成部分，在自动驾驶车辆视觉系统中发挥着基础性作用。近期的研究通过利用互补信息和开发多模态方法，显著提高了语义分割的准确性。然而，尽管在准确性方面取得了进展，多模态语义分割方法仍面临计算复杂度高和推理速度低的问题。因此，在驾驶应用中实现多模态方法是一项具有挑战性的任务。为了解决这一问题，我们提出了一种实时RGB-X语义分割模型——余弦相似度融合网络（Cosine Similarity Fusion Network, CSFNet）。具体而言，我们设计了一个余弦相似度注意力融合模块（Cosine Similarity Attention Fusion Module, CS-AFM），该模块能够有效地校正和融合两种模态的特征。CS-AFM模块利用跨模态相似性来实现较高的泛化能力。通过增强较低层次的跨模态特征融合，CS-AFM为较高层次使用单分支网络铺平了道路。因此，我们在编码器中采用了双分支和单分支架构，并结合高效的上下文模块和轻量级解码器以实现快速而准确的预测。为了验证CSFNet的有效性，我们使用Cityscapes、MFNet和ZJU数据集进行了RGB-D/T/P语义分割实验。根据实验结果，CSFNet在准确性方面与现有最先进方法相当，同时在多模态语义分割模型的速度方面处于领先地位。此外，由于其参数数量少和计算复杂度低，CSFNet还实现了高效率。CSFNet的源代码将在https://github.com/Danial-Qashqai/CSFNet上提供。

源 PDF