17 天前
MDS-ViTNet:基于视觉Transformer的眼动追踪显著性预测性能提升
Polezhaev Ignat, Goncharenko Igor, Iurina Natalya

摘要
本文提出了一种名为MDS-ViTNet(基于视觉Transformer网络的多解码显著性检测)的新型方法,用于提升视觉显著性预测与眼动追踪性能。该方法在市场营销、医学、机器人技术及零售等多个领域具有广阔的应用前景。我们设计了一种新型网络架构,摒弃了传统的ImageNet预训练主干网络,转而采用视觉Transformer(Vision Transformer)作为核心组件。该框架采用编码器-解码器结构,其中编码器利用Swin Transformer高效提取图像中最具代表性的特征。该过程引入了迁移学习策略:将视觉Transformer的层通过编码器Transformer进行转换,并无缝集成至CNN解码器中,从而最大限度地保留原始输入图像的信息。在解码阶段,我们采用多解码机制,通过两个并行解码器生成两个独立的注意力图,再通过一个额外的CNN模型对二者进行融合,输出最终的显著性图。所训练的MDS-ViTNet模型在多个基准测试中均取得了当前最优(state-of-the-art)的性能表现。为促进学术界进一步合作,我们计划将代码、训练模型及数据集公开发布,供广大研究者使用与参考。