8 个月前

摘要

视觉注意力建模在解释和优先处理视觉刺激方面具有重要意义，在市场营销、多媒体和机器人技术等领域发挥着重要作用。传统的显著性预测模型，尤其是基于卷积神经网络（CNNs）或 Transformer （Transformers）的模型，通过利用大规模标注数据集取得了显著的成功。然而，当前最先进的（SOTA）使用 Transformer 的模型计算成本较高。此外，通常需要为每种图像类型分别构建不同的模型，缺乏统一的方法。本文提出了一种新的方法——Mamba 统一显著性建模（Saliency Unification through Mamba, SUM），该方法将 Mamba 高效的长程依赖建模与 U-Net 结合，为多种图像类型提供了一个统一的模型。通过引入一种新颖的条件视觉状态空间（Conditional Visual State Space, C-VSS）模块，SUM 能够动态适应各种图像类型，包括自然场景、网页和商业图像，确保其在不同数据类型中的普遍适用性。我们在五个基准数据集上的全面评估表明，SUM 无缝适应不同的视觉特征，并且始终优于现有模型。这些结果使 SUM 成为了一个多功能且强大的工具，推动了视觉注意力建模的发展，提供了适用于不同类型视觉内容的稳健解决方案。

源 PDF