2 个月前

SUM:通过Mamba实现视觉注意模型的显著性统一

Alireza Hosseini; Amirhossein Kazerouni; Saeed Akhavan; Michael Brudno; Babak Taati
SUM:通过Mamba实现视觉注意模型的显著性统一
摘要

视觉注意力建模在解释和优先处理视觉刺激方面具有重要意义,在市场营销、多媒体和机器人技术等领域发挥着重要作用。传统的显著性预测模型,尤其是基于卷积神经网络(CNNs)或变压器(Transformers)的模型,通过利用大规模标注数据集取得了显著的成功。然而,当前最先进的(SOTA)使用变压器的模型计算成本较高。此外,通常需要为每种图像类型分别构建不同的模型,缺乏统一的方法。本文提出了一种新的方法——Mamba 统一显著性建模(Saliency Unification through Mamba, SUM),该方法将 Mamba 高效的长程依赖建模与 U-Net 结合,为多种图像类型提供了一个统一的模型。通过引入一种新颖的条件视觉状态空间(Conditional Visual State Space, C-VSS)模块,SUM 能够动态适应各种图像类型,包括自然场景、网页和商业图像,确保其在不同数据类型中的普遍适用性。我们在五个基准数据集上的全面评估表明,SUM 无缝适应不同的视觉特征,并且始终优于现有模型。这些结果使 SUM 成为了一个多功能且强大的工具,推动了视觉注意力建模的发展,提供了适用于不同类型视觉内容的稳健解决方案。