HyperAIHyperAI

Command Palette

Search for a command to run...

TranSalNet:面向感知相关性的视觉显著性预测

Jianxun Lou Hanhe Lin David Marshall Dietmar Saupe Hantao Liu

摘要

基于Transformer的视觉显著性预测卷积神经网络(CNN)在显著性预测的计算建模方面已取得显著进展。然而,准确模拟人类大脑皮层中视觉注意机制仍是学术界的一项挑战。将人类视觉特性融入CNN架构设计,对于提升显著性预测的感知相关性至关重要。由于CNN架构固有的归纳偏置,其在长距离上下文信息编码方面能力有限,这限制了基于CNN的显著性模型捕捉人类视觉行为特性的能力。相比之下,Transformer通过自注意力机制在建模长距离依赖关系方面展现出巨大潜力。本文提出一种新型显著性预测模型,将Transformer组件与CNN相结合,以捕捉长距离上下文视觉信息。实验结果表明,引入Transformer显著提升了显著性预测的性能,增强了模型的感知相关性。所提出的基于Transformer的显著性预测模型TranSalNet在多个公开基准数据集和显著性预测竞赛中均取得了领先性能。本模型的源代码已公开,可访问:https://github.com/LJOVO/TranSalNet


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供