6 个月前

卷积神经网络

计算机视觉

Jianxun Lou Hanhe Lin David Marshall Dietmar Saupe Hantao Liu

摘要

基于Transformer的视觉显著性预测卷积神经网络（CNN）在显著性预测的计算建模方面已取得显著进展。然而，准确模拟人类大脑皮层中视觉注意机制仍是学术界的一项挑战。将人类视觉特性融入CNN架构设计，对于提升显著性预测的感知相关性至关重要。由于CNN架构固有的归纳偏置，其在长距离上下文信息编码方面能力有限，这限制了基于CNN的显著性模型捕捉人类视觉行为特性的能力。相比之下，Transformer通过自注意力机制在建模长距离依赖关系方面展现出巨大潜力。本文提出一种新型显著性预测模型，将Transformer组件与CNN相结合，以捕捉长距离上下文视觉信息。实验结果表明，引入Transformer显著提升了显著性预测的性能，增强了模型的感知相关性。所提出的基于Transformer的显著性预测模型TranSalNet在多个公开基准数据集和显著性预测竞赛中均取得了领先性能。本模型的源代码已公开，可访问：https://github.com/LJOVO/TranSalNet

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

计算机视觉

Jianxun Lou Hanhe Lin David Marshall Dietmar Saupe Hantao Liu

摘要

基于Transformer的视觉显著性预测卷积神经网络（CNN）在显著性预测的计算建模方面已取得显著进展。然而，准确模拟人类大脑皮层中视觉注意机制仍是学术界的一项挑战。将人类视觉特性融入CNN架构设计，对于提升显著性预测的感知相关性至关重要。由于CNN架构固有的归纳偏置，其在长距离上下文信息编码方面能力有限，这限制了基于CNN的显著性模型捕捉人类视觉行为特性的能力。相比之下，Transformer通过自注意力机制在建模长距离依赖关系方面展现出巨大潜力。本文提出一种新型显著性预测模型，将Transformer组件与CNN相结合，以捕捉长距离上下文视觉信息。实验结果表明，引入Transformer显著提升了显著性预测的性能，增强了模型的感知相关性。所提出的基于Transformer的显著性预测模型TranSalNet在多个公开基准数据集和显著性预测竞赛中均取得了领先性能。本模型的源代码已公开，可访问：https://github.com/LJOVO/TranSalNet

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供