2 个月前

M$^3$Net:用于显著目标检测的多层次、混合和多阶段注意力网络

Yao Yuan; Pan Gao; XiaoYang Tan
M$^3$Net:用于显著目标检测的多层次、混合和多阶段注意力网络
摘要

大多数现有的显著目标检测方法主要使用U-Net或特征金字塔结构,这些方法简单地聚合不同尺度的特征图,忽略了它们的独特性和相互依赖性及其对最终预测的各自贡献。为了解决这些问题,我们提出了M$^3$Net,即多层级、混合和多阶段注意力网络(Multilevel, Mixed and Multistage attention network for Salient Object Detection, SOD)。首先,我们提出了一种多尺度交互块(Multiscale Interaction Block),创新性地引入了交叉注意力机制来实现多层级特征之间的交互,使高层次特征能够指导低层次特征的学习,从而增强显著区域。其次,考虑到先前基于Transformer的SOD方法仅使用全局自注意力来定位显著区域,而不可避免地忽视了复杂对象的细节,我们提出了混合注意力块(Mixed Attention Block)。该模块结合了全局自注意力和窗口自注意力,旨在从全局和局部两个层面建模上下文信息,以进一步提高预测图的准确性。最后,我们提出了一种多层级监督策略,逐阶段优化聚合特征。在六个具有挑战性的数据集上的实验表明,所提出的M$^3$Net在四项指标上超越了最近的CNN和基于Transformer的SOD技术。代码可在https://github.com/I2-Multimedia-Lab/M3Net 获取。

M$^3$Net:用于显著目标检测的多层次、混合和多阶段注意力网络 | 最新论文 | HyperAI超神经