17 天前

TranSalNet:面向感知相关性的视觉显著性预测

Jianxun Lou, Hanhe Lin, David Marshall, Dietmar Saupe, Hantao Liu
TranSalNet:面向感知相关性的视觉显著性预测
摘要

基于Transformer的视觉显著性预测卷积神经网络(CNN)在显著性预测的计算建模方面已取得显著进展。然而,准确模拟人类大脑皮层中视觉注意机制仍是学术界的一项挑战。将人类视觉特性融入CNN架构设计,对于提升显著性预测的感知相关性至关重要。由于CNN架构固有的归纳偏置,其在长距离上下文信息编码方面能力有限,这限制了基于CNN的显著性模型捕捉人类视觉行为特性的能力。相比之下,Transformer通过自注意力机制在建模长距离依赖关系方面展现出巨大潜力。本文提出一种新型显著性预测模型,将Transformer组件与CNN相结合,以捕捉长距离上下文视觉信息。实验结果表明,引入Transformer显著提升了显著性预测的性能,增强了模型的感知相关性。所提出的基于Transformer的显著性预测模型TranSalNet在多个公开基准数据集和显著性预测竞赛中均取得了领先性能。本模型的源代码已公开,可访问:https://github.com/LJOVO/TranSalNet