2 个月前

多源融合与零样本视频对象分割中的自动预测器选择

Xiaoqi Zhao; Youwei Pang; Jiaxing Yang; Lihe Zhang; Huchuan Lu
多源融合与零样本视频对象分割中的自动预测器选择
摘要

位置和外观是视频对象分割的关键线索。许多数据源,如RGB图像、深度图、光流和静态显著性图,可以提供有关对象的有用信息。然而,现有的方法仅利用了RGB图像或RGB图像与光流的组合。在本文中,我们提出了一种新颖的多源融合网络用于零样本视频对象分割。借助内感受空间注意力模块(Interoceptive Spatial Attention Module, ISAM),每个数据源的空间重要性得到了突出。此外,我们设计了一个特征净化模块(Feature Purification Module, FPM),以过滤不同来源之间的不兼容特征。通过ISAM和FPM,多源特征得以有效融合。另外,我们提出了一种自动预测器选择网络(Automatic Predictor Selection Network, APS),以选择静态显著性预测器或运动对象预测器中的更优预测结果,从而防止因低质量光流图导致的结果过度依赖问题。在三个具有挑战性的公开基准数据集(即DAVIS$_{16}$、YouTube-Objects和FBMS)上进行的大量实验表明,所提出的模型在性能上优于现有最先进方法。源代码将在\textcolor{red}{\url{https://github.com/Xiaoqi-Zhao-DLUT/Multi-Source-APS-ZVOS}}公开发布。