
摘要
目标跟踪是计算机视觉领域中一个研究较为充分的问题,而识别视频中目标的显著区域则在现有文献中仍属较少探索的方向。尽管视频眼球注视估计方法致力于解决相关任务,但这些方法中的显著点并未受到目标边界的约束,且由于真实标注数据噪声较大,往往导致预测结果分布零散、稳定性差。为此,本文将检测与跟踪目标显著区域的问题重新定义为一项新任务——目标热点跟踪(object hotspot tracking)。 本文提出一种统一框架,实现实时联合解决该任务与无监督视频目标分割问题,以充分挖掘二者之间的协同效应。具体而言,我们设计了一种加权相关孪生网络(Weighted Correlation Siamese Network, WCS-Net),其中引入加权相关模块(Weighted Correlation Block, WCB),用于编码模板帧与搜索帧之间的像素级对应关系。此外,WCB利用初始掩码或热点区域作为引导,增强显著区域在跟踪过程中的影响,从而提升跟踪的鲁棒性。 所提出的系统在推理阶段可在线运行,能够以33 FPS的帧率实时联合生成目标掩码与热点轨迹片段。实验结果验证了网络设计的有效性,并表明联合求解热点跟踪与目标分割任务具有显著优势。特别地,我们的方法在目标热点跟踪任务上优于当前最先进的视频眼球注视模型,在三个无监督视频目标分割基准数据集上也均取得了优于现有方法的性能表现。