
摘要
电商图像在在线零售与购物过程中正发挥着吸引用户注意力的核心作用,而准确预测用户注意力分布对消费者与零售商均具有重要意义,相关研究尚处于起步阶段。本文首次构建了首个电商图像显著性数据集(SalECI),为学习预测电商图像中的显著性区域提供了基础。在此基础上,我们通过深入分析,揭示了电商图像所具有的独特属性,例如显著性区域的非局部性以及与文本区域之间的强相关性。针对这些特性,本文提出了一种基于非局部机制与自注意力机制的显著性SWin-Transformer骨干网络,并设计了包含显著性预测与文本检测的多任务学习框架,同时引入一种信息流机制,以进一步促进两个任务的协同优化。实验结果表明,所提方法在电商场景下取得了当前最优的性能表现。