2 个月前
基于组的分割统一Transformer框架:共分割、共显著性检测和视频显著物体检测
Su, Yukun ; Deng, Jingliang ; Sun, Ruizhou ; Lin, Guosheng ; Wu, Qingyao

摘要
人类倾向于通过学习一组图像或几帧视频来挖掘对象,因为我们生活在一个动态的世界中。在计算机视觉领域,许多研究集中在共分割(CoS)、共显著性检测(CoSD)和视频显著对象检测(VSOD)上,以发现共同出现的对象。然而,以往的方法为这些相似的任务设计了不同的网络,难以相互应用,这降低了深度学习框架的可迁移性的上限。此外,它们未能充分利用组内图像之间的内部特征和外部特征之间的线索。本文介绍了一种统一框架来解决这些问题,称为UFO(用于共对象分割的统一框架)。具体而言,我们首先引入了一个变压器模块,该模块将图像特征视为补丁标记,然后通过自注意力机制捕捉其长程依赖关系。这有助于网络挖掘相关对象之间的补丁结构相似性。此外,我们提出了一种内部MLP学习模块来生成自掩码,以增强网络避免部分激活的能力。我们在四个共分割基准数据集(PASCAL、iCoseg、Internet和MSRC)、三个共显著性检测基准数据集(Cosal2015、CoSOD3k和CocA)以及四个视频显著对象检测基准数据集(DAVIS16、FBMS、ViSal和SegV2)上进行了广泛的实验,结果表明我们的方法在这三项不同任务中均优于其他最先进方法,在精度和速度方面表现出色,并且可以实现实时140帧每秒的处理速度。