6 个月前

摘要

半监督视频目标分割任务旨在仅凭第一帧中的掩码标注，对视频序列中的目标对象进行分割。由于可用信息极为有限，该任务极具挑战性。以往表现最优的方法大多采用基于匹配的归纳推理（transductive reasoning）或在线归纳学习（online inductive learning）策略。然而，这些方法要么在区分相似实例时缺乏判别能力，要么在利用时空信息方面仍显不足。在本工作中，我们提出将归纳学习与归纳推理整合到一个统一框架中，以充分利用二者之间的互补性，实现更准确且鲁棒的视频目标分割。所提方法包含两个功能分支：其中，归纳分支采用轻量级Transformer架构，以有效聚合丰富的时空特征；而归纳分支则执行在线归纳学习，以获取具有强判别性的目标信息。为连接这两个差异较大的分支，我们引入了一个双头标签编码器（two-head label encoder），用于分别为两个分支学习合适的先验目标信息。进一步地，生成的掩码编码被强制解耦，以更好地保留其互补特性。在多个主流基准数据集上的大量实验表明，该方法无需依赖合成训练数据，即可在多个任务上创下一系列新的最先进（SOTA）性能记录。代码已开源，地址为：https://github.com/maoyunyao/JOINT。

源 PDF