8 个月前

计算机视觉

Choi

摘要

参考视频对象分割旨在根据给定的文本描述对视频中的对象进行分割。现有的基于 Transformer 的时间建模方法在查询一致性及上下文考虑方面面临挑战。查询不一致会导致视频中间不同对象的掩码不稳定。而有限的上下文考虑则由于未能充分考虑到给定文本与实例之间的关系，导致分割出错误的对象。为了解决这些问题，我们提出了一种多上下文时间一致性模块（Multi-context Temporal Consistency Module, MTCM），该模块由对齐器（Aligner）和多上下文增强器（Multi-Context Enhancer, MCE）组成。对齐器通过去除查询中的噪声并将其对齐来实现查询的一致性。多上下文增强器则通过考虑多上下文来预测与文本相关的查询。我们将MTCM应用于四种不同的模型中，提升了所有模型的性能，特别是在MeViS数据集上达到了47.6的J&F分数。代码可在https://github.com/Choi58/MTCM 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Choi

摘要

参考视频对象分割旨在根据给定的文本描述对视频中的对象进行分割。现有的基于 Transformer 的时间建模方法在查询一致性及上下文考虑方面面临挑战。查询不一致会导致视频中间不同对象的掩码不稳定。而有限的上下文考虑则由于未能充分考虑到给定文本与实例之间的关系，导致分割出错误的对象。为了解决这些问题，我们提出了一种多上下文时间一致性模块（Multi-context Temporal Consistency Module, MTCM），该模块由对齐器（Aligner）和多上下文增强器（Multi-Context Enhancer, MCE）组成。对齐器通过去除查询中的噪声并将其对齐来实现查询的一致性。多上下文增强器则通过考虑多上下文来预测与文本相关的查询。我们将MTCM应用于四种不同的模型中，提升了所有模型的性能，特别是在MeViS数据集上达到了47.6的J&F分数。代码可在https://github.com/Choi58/MTCM 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供