2 个月前
使用解耦视频分割追踪任意对象
Ho Kei Cheng; Seoung Wug Oh; Brian Price; Alexander Schwing; Joon-Young Lee

摘要
视频分割的训练数据标注成本高昂。这阻碍了端到端算法在新视频分割任务中的扩展,尤其是在大规模词汇设置中。为了在不针对每个单独任务进行视频数据训练的情况下实现“跟踪任何事物”,我们开发了一种解耦的视频分割方法(DEVA),该方法由特定任务的图像级分割和类别/任务无关的双向时间传播组成。由于这种设计,我们只需要一个针对目标任务的图像级模型(其训练成本较低)和一个通用的时间传播模型,后者只需训练一次即可跨任务泛化。为了有效结合这两个模块,我们采用了双向传播技术,对来自不同帧的分割假设进行(半)在线融合,以生成连贯的分割结果。我们在多个数据稀缺的任务中展示了这种解耦公式优于端到端方法,包括大规模词汇视频全景分割、开放世界视频分割、指代视频分割和无监督视频对象分割。代码可在以下网址获取:https://hkchengrex.github.io/Tracking-Anything-with-DEVA