11 天前

视频目标分割的联合归纳与直推学习

Yunyao Mao, Ning Wang, Wengang Zhou, Houqiang Li
视频目标分割的联合归纳与直推学习
摘要

半监督视频目标分割任务旨在仅凭第一帧中的掩码标注,对视频序列中的目标对象进行分割。由于可用信息极为有限,该任务极具挑战性。以往表现最优的方法大多采用基于匹配的归纳推理(transductive reasoning)或在线归纳学习(online inductive learning)策略。然而,这些方法要么在区分相似实例时缺乏判别能力,要么在利用时空信息方面仍显不足。在本工作中,我们提出将归纳学习与归纳推理整合到一个统一框架中,以充分利用二者之间的互补性,实现更准确且鲁棒的视频目标分割。所提方法包含两个功能分支:其中,归纳分支采用轻量级Transformer架构,以有效聚合丰富的时空特征;而归纳分支则执行在线归纳学习,以获取具有强判别性的目标信息。为连接这两个差异较大的分支,我们引入了一个双头标签编码器(two-head label encoder),用于分别为两个分支学习合适的先验目标信息。进一步地,生成的掩码编码被强制解耦,以更好地保留其互补特性。在多个主流基准数据集上的大量实验表明,该方法无需依赖合成训练数据,即可在多个任务上创下一系列新的最先进(SOTA)性能记录。代码已开源,地址为:https://github.com/maoyunyao/JOINT。