
摘要
过去十年间,视频显著目标检测(VSOD)领域受到了越来越多的关注。然而,研究界长期缺乏一个能够真实反映动态场景、且具备高质量标注的代表性VSOD数据集。为解决这一问题,我们精心构建了一个视觉注意力一致性良好的密集标注视频显著目标检测数据集——DAVSOD(Densely Annotated VSOD),该数据集包含226个视频,共计23,938帧,覆盖了多样化的现实场景、物体、实例及运动模式。结合对应的人类真实眼动数据,我们获得了精确的标注真值(ground-truth)。本工作是首个明确强调“显著性漂移”(saliency shift)挑战的研究,即视频中的显著目标可能随时间动态变化。为进一步推动社区发展,我们系统性地在七个现有VSOD数据集以及我们提出的DAVSOD数据集上,对17种具有代表性的VSOD算法进行了全面评估,总帧数达84,000帧,为目前规模最大的基准测试。基于三个经典评估指标,我们开展了深入且具有洞察力的性能分析。此外,我们提出了一种基线模型,其核心为一种具备显著性漂移感知能力的convLSTM结构,能够通过学习人类注意力转移行为,高效捕捉视频中显著性动态变化。大量实验结果揭示了模型发展的潜在方向,并为后续方法的比较与优化提供了坚实基础。