
摘要
我们将视频中的目标分割问题表述为时空图的划分问题,其中节点是像素,它们之间的关系构成了局部邻域。我们认为,该像素级图中最显著的聚类代表了目标分割。我们使用一种新颖且快速的三维滤波技术来计算主要聚类,该技术能够在不显式构建矩阵的情况下找到谱聚类的解,即图的邻接矩阵的主要特征向量——这在直接构建矩阵时是不可行的。我们的方法基于用于寻找矩阵主要特征向量的幂迭代法,我们证明了这种方法等同于在时空特征体中执行特定的一组三维卷积。这使得我们可以避免创建矩阵,并在GPU上实现快速并行计算。实验结果表明,我们的方法比直接应用于邻接矩阵的经典幂迭代法快得多。与其他工作不同的是,我们的方法致力于在像素级别上保持空间和时间上的对象一致性。为此,它需要强大的帧级像素特征。这使得它可以完美地结合骨干网络或其他方法的输出,并在无需监督的情况下快速改进这些方法的结果。在实验中,我们使用相同的超参数集,在DAVIS-2016数据集上对最先进方法进行了持续改进,无论是在无监督任务还是半监督任务中。此外,我们在著名的SegTrackv2数据集中也取得了最佳结果。