6 个月前

摘要

本文提出了一种基于深度学习的新型视频显著性预测方法，命名为DeepVS。具体而言，我们构建了一个大规模视频眼动数据库（LEDOV），包含32名受试者对538个视频片段的注视点数据。通过对LEDOV的分析发现，人类注意力更易被物体吸引，尤其是运动中的物体或物体的运动部分。为此，我们设计了一种面向对象到运动的卷积神经网络（OM-CNN），用于预测DeepVS中的帧内显著性，该网络由“物体性子网络”与“运动子网络”两部分构成。在OM-CNN中，我们提出跨网络掩码（cross-net mask）与分层特征归一化机制，以有效融合物体性子网络的空间特征与运动子网络的时序特征。此外，基于数据库的进一步分析表明，人类注意力在时间上具有显著相关性，视频帧间的显著性呈现平滑过渡特性。因此，我们提出了结构化显著性卷积长短期记忆网络（SS-ConvLSTM），以OM-CNN提取的特征作为输入，从而生成考虑中心偏置特性的结构化输出以及跨帧注意力图的平滑变化的帧间显著性图。实验结果表明，DeepVS在视频显著性预测任务上显著超越了现有技术水平，达到了当前最优性能。

源 PDF 查看代码