6 个月前

摘要

尽管基于深度学习的方法在无监督视频对象分割任务中取得了显著进展，但在视觉相似性、遮挡以及外观变化等复杂场景下仍面临挑战。为缓解上述问题，本文提出一种新型的前景聚焦网络（Focus on Foreground Network, F2Net），通过深入挖掘前景对象在帧内与帧间的一致性细节，显著提升分割性能。具体而言，所提出的F2Net由三个核心模块构成：孪生编码模块（Siamese Encoder Module）、中心引导外观扩散模块（Center Guiding Appearance Diffusion Module）以及动态信息融合模块（Dynamic Information Fusion Module）。首先，采用孪生编码结构对成对帧（参考帧与当前帧）进行特征提取，以获得两帧间的初步特征表示。随后，设计了中心引导外观扩散模块，用于捕捉三类关键特征：帧间特征（即参考帧与当前帧之间的密集对应关系）、帧内特征（当前帧内部的密集对应关系）以及当前帧的原始语义特征。为增强特征提取的聚焦能力，我们引入一个中心点预测分支，用于预测当前帧中前景对象的中心位置，并将该中心点信息作为空间引导先验，有效指导帧间与帧内特征的提取过程，从而使特征表示更加集中于前景对象区域。最后，提出动态信息融合模块，通过自适应地融合上述三个层次的特征，自动选择更具判别性的特征表示。在DAVIS2016、YouTube-Object和FBMS等多个公开数据集上的大量实验结果表明，所提出的F2Net在各项指标上均达到当前最优性能，显著优于现有方法。

源 PDF