
摘要
近日,随着深度卷积神经网络(DCNN)的出现,视觉显著性预测研究取得了令人瞩目的进展。为了实现下一步的改进,一个可能的方向是在DCNN架构中引入计算友好的模块,以全面表征多尺度显著性影响因素。在本工作中,我们提出了一种端到端的膨胀 inception 网络(DINet),用于视觉显著性预测。该网络能够以非常有限的额外参数有效地捕捉多尺度上下文特征。与现有的 inception 模块不同,我们提出的膨胀 inception 模块(DIM)采用了具有不同膨胀率的并行膨胀卷积,这不仅显著降低了计算负载,还丰富了特征图中感受野的多样性。此外,通过使用一组基于线性归一化的概率分布距离度量作为损失函数,我们的显著性模型性能得到了进一步提升。因此,我们可以将显著性预测问题表述为全局显著性推理的概率分布预测任务,而不仅仅是传统的像素级回归问题。实验结果表明,在多个具有挑战性的显著性基准数据集上,我们提出的 DINet 以及所设计的损失函数能够在较短的推理时间内达到最先进的性能。