2 个月前

多上下文时序一致性建模用于指代视频对象分割

Sun-Hyuk Choi; Hayoung Jo; Seong-Whan Lee
多上下文时序一致性建模用于指代视频对象分割
摘要

参考视频对象分割旨在根据给定的文本描述对视频中的对象进行分割。现有的基于变压器的时间建模方法在查询一致性及上下文考虑方面面临挑战。查询不一致会导致视频中间不同对象的掩码不稳定。而有限的上下文考虑则由于未能充分考虑到给定文本与实例之间的关系,导致分割出错误的对象。为了解决这些问题,我们提出了一种多上下文时间一致性模块(Multi-context Temporal Consistency Module, MTCM),该模块由对齐器(Aligner)和多上下文增强器(Multi-Context Enhancer, MCE)组成。对齐器通过去除查询中的噪声并将其对齐来实现查询的一致性。多上下文增强器则通过考虑多上下文来预测与文本相关的查询。我们将MTCM应用于四种不同的模型中,提升了所有模型的性能,特别是在MeViS数据集上达到了47.6的J&F分数。代码可在https://github.com/Choi58/MTCM 获取。

多上下文时序一致性建模用于指代视频对象分割 | 最新论文 | HyperAI超神经