
摘要
本文专注于开发一种更为有效的层次传播方法,用于半监督视频对象分割(VOS)。基于视觉变换器,最近提出的“利用变换器关联对象”(AOT)方法将层次传播引入VOS,并展示了令人鼓舞的结果。层次传播可以逐步从过去的帧中传播信息到当前帧,并将当前帧的特征从对象无关转变为对象特定。然而,随着对象特定信息的增加,深度传播层中不可避免地会出现对象无关视觉信息的丢失。为了解决这一问题并进一步促进视觉嵌入的学习,本文提出了一种“在层次传播中解耦特征”(DeAOT)的方法。首先,DeAOT通过在两个独立的分支中分别处理对象无关和对象特定的嵌入来解耦层次传播。其次,为了补偿双分支传播带来的额外计算开销,我们设计了一个高效的模块来构建层次传播,即门控传播模块(Gated Propagation Module),该模块精心设计了单头注意力机制。大量实验表明,DeAOT在准确性和效率方面显著优于AOT。在YouTube-VOS数据集上,DeAOT可以分别以22.4帧/秒的速度达到86.0%的准确率和以53.4帧/秒的速度达到82.0%的准确率。无需测试时增强的情况下,我们在四个基准测试中取得了新的最先进性能,分别是YouTube-VOS(86.2%)、DAVIS 2017(86.2%)、DAVIS 2016(92.9%)和VOT 2020(0.622)。项目页面:https://github.com/z-x-yang/AOT。