6 个月前

摘要

本文对视觉注意力在无监督视频对象分割（Unsupervised Video Object Segmentation, UVOS）任务中的作用进行了系统性研究。通过在UVOS设置下，对三个主流视频分割数据集（DAVIS、Youtube-Objects 和 SegTrack V2）进行精细标注，引入动态眼动追踪数据，首次实现了对人类观察者视觉注意力行为一致性的定量验证。研究发现，在动态、任务驱动的观看过程中，人类注意力与显式的主要对象判断之间存在显著相关性。这一新发现为理解UVOS任务背后的认知机制提供了深入洞见。受此启发，本文将UVOS任务解耦为两个子任务：在时空域上的UVOS驱动型动态视觉注意力预测（Dynamic Visual Attention Prediction, DVAP），以及在空间域上的注意力引导对象分割（Attention-Guided Object Segmentation, AGOS）。所提出的UVOS解决方案具备三大优势：（1）模块化训练机制，无需依赖昂贵的视频分割标注，而是利用成本较低的动态注视点数据训练初始视频注意力模块，并结合现有的注视点-分割配对的静态图像数据训练后续分割模块；（2）通过多源学习实现对前景对象的全面理解；（3）具备生物学启发性且可评估的注意力机制，带来额外的可解释性。在多个主流基准上的实验结果表明，即使不使用昂贵的视频对象掩码标注，本模型在性能上仍可与当前最先进的方法相媲美，展现出强大的竞争力。

源 PDF