2 个月前

通过视觉注意力学习无监督视频对象分割

{ Haibin Ling, Steven C. H. Hoi, Sanyuan Zhao, Jianbing Shen, Shuyang Zhao, Hongmei Song, Wenguan Wang}
通过视觉注意力学习无监督视频对象分割
摘要

本文对视觉注意力在无监督视频对象分割(Unsupervised Video Object Segmentation, UVOS)任务中的作用进行了系统性研究。通过在UVOS设置下,对三个主流视频分割数据集(DAVIS、Youtube-Objects 和 SegTrack V2)进行精细标注,引入动态眼动追踪数据,首次实现了对人类观察者视觉注意力行为一致性的定量验证。研究发现,在动态、任务驱动的观看过程中,人类注意力与显式的主要对象判断之间存在显著相关性。这一新发现为理解UVOS任务背后的认知机制提供了深入洞见。受此启发,本文将UVOS任务解耦为两个子任务:在时空域上的UVOS驱动型动态视觉注意力预测(Dynamic Visual Attention Prediction, DVAP),以及在空间域上的注意力引导对象分割(Attention-Guided Object Segmentation, AGOS)。所提出的UVOS解决方案具备三大优势:(1)模块化训练机制,无需依赖昂贵的视频分割标注,而是利用成本较低的动态注视点数据训练初始视频注意力模块,并结合现有的注视点-分割配对的静态图像数据训练后续分割模块;(2)通过多源学习实现对前景对象的全面理解;(3)具备生物学启发性且可评估的注意力机制,带来额外的可解释性。在多个主流基准上的实验结果表明,即使不使用昂贵的视频对象掩码标注,本模型在性能上仍可与当前最先进的方法相媲美,展现出强大的竞争力。