
摘要
预测自然图像中的显著区域需要检测场景中存在的物体。为了应对这一具有挑战性的任务,必须提取多个空间尺度上的高级视觉特征,并结合上下文信息进行增强。然而,现有的旨在解释人类注视图的模型并未明确纳入这种机制。本文提出了一种基于大规模图像分类任务预训练的卷积神经网络的方法。该架构形成了编码器-解码器结构,并包含一个具有不同膨胀率的多层卷积模块,以并行捕获多尺度特征。此外,我们将生成的表示与全局场景信息相结合,以准确预测视觉显著性。我们的模型在两个公开的显著性基准数据集上,通过多种评估指标取得了具有竞争力且一致的结果,并在五个数据集和选定示例中展示了所提方法的有效性。与现有最先进方法相比,该网络基于轻量级的图像分类骨干网,因此对于计算资源有限的应用(如虚拟机器人系统)而言,是一种适合的选择,能够在复杂自然场景中估计人类的注视点。