2 个月前

自适应多源预测器用于零样本视频对象分割

Xiaoqi Zhao; Shijie Chang; Youwei Pang; Jiaxing Yang; Lihe Zhang; Huchuan Lu
自适应多源预测器用于零样本视频对象分割
摘要

在现实视频中,静态物体和动态物体经常同时出现。大多数视频对象分割方法仅专注于提取和利用运动线索来感知动态物体。一旦面对静态物体的帧,由于不确定的运动信息(如低质量的光流图),动态物体预测器可能会产生错误的结果。此外,不同的数据源(如RGB、深度、光流和静态显著性)可以提供有关物体的有用信息。然而,现有的方法只考虑RGB或RGB与光流的组合。本文提出了一种新颖的自适应多源预测器,用于零样本视频对象分割(ZVOS)。在静态物体预测器中,RGB源被同时转换为深度源和静态显著性源。在动态物体预测器中,我们提出了多源融合结构。首先,在内感受空间注意力模块(Interoceptive Spatial Attention Module, ISAM)的帮助下,每个数据源的空间重要性被突出显示。其次,设计了运动增强模块(Motion-Enhanced Module, MEM),以生成纯前景运动注意力,从而提高解码器中静态和动态特征的表示能力。此外,我们还设计了一个特征净化模块(Feature Purification Module, FPM),用于过滤不同数据源之间的不兼容特征。通过使用ISAM、MEM和FPM,多源特征得到了有效融合。此外,我们提出了一种自适应预测器融合网络(Adaptive Predictor Fusion Network, APF),用于评估光流图的质量,并融合来自静态物体预测器和动态物体预测器的预测结果,以防止因低质量光流图导致的过度依赖错误结果。实验表明,所提出的模型在三个具有挑战性的ZVOS基准测试中优于现有最先进方法。而且,静态物体预测器能够同时精确预测高质量的深度图和静态显著性图。