2 个月前
TokenCut:利用自监督变换器和归一化切割在图像和视频中分割对象
Yangtao Wang; Xi Shen; Yuan Yuan; Yuming Du; Maomao Li; Shell Xu Hu; James L Crowley; Dominique Vaufreydaz

摘要
本文介绍了一种基于图的算法,该算法利用自监督变压器(self-supervised transformer)提取的特征来检测和分割图像及视频中的显著对象。通过这种方法,构成图像或视频的图像块被组织成一个全连接图,其中每对图像块之间的边用变压器学习到的特征计算出的相似度分数进行标记。随后,显著对象的检测和分割问题被表述为一个图切割问题,并使用经典的归一化切割(Normalized Cut)算法进行求解。尽管这种方法相对简单,但在多个常见的图像和视频检测与分割任务中仍取得了最先进的结果。在无监督对象发现任务中,当分别使用VOC07、VOC12和COCO20K数据集进行测试时,该方法的表现分别优于竞争方法6.1%、5.7%和2.6%。对于图像中的无监督显著性检测任务,该方法在交并比(Intersection over Union, IoU)得分上分别提高了4.4%、5.6%和5.2%,测试数据集分别为ECSSD、DUTS和DUT-OMRON。此外,该方法在DAVIS、SegTV2和FBMS数据集上的无监督视频对象分割任务中也取得了具有竞争力的结果。