
摘要
在本研究中,我们从两个方面对视频显著性研究做出了贡献。首先,我们引入了一个新的基准,用于预测人类在动态场景自由观看过程中的眼动情况,这是该领域长期以来亟需的一项工作。我们的数据集命名为DHF1K(动态人类注视点),包含1000个精心挑选的高质量视频序列,涵盖了广泛的场景、运动、物体类型和背景复杂度。现有的视频显著性数据集缺乏常见动态场景的多样性和普遍性,并且在无约束环境中难以涵盖具有挑战性的场景。相比之下,DHF1K在可扩展性、多样性和难度方面实现了显著的提升,有望推动视频显著性建模的发展。其次,我们提出了一种新颖的视频显著性模型,通过在CNN-LSTM网络架构中加入注意力机制来实现快速、端到端的显著性学习。该注意力机制显式地编码静态显著性信息,从而使LSTM能够专注于学习连续帧之间更为灵活的时间显著性表示。这种设计充分利用了现有的大规模静态注视点数据集,避免了过拟合,并显著提高了训练效率和测试性能。我们在三个大规模数据集(即DHF1K、Hollywood2、UCF体育)上对模型的性能进行了全面评估,并与最先进的显著性模型进行了对比。实验结果表明,在超过1200个测试视频(包含40万帧)上的表现优于其他竞争对手。