HyperAIHyperAI

Command Palette

Search for a command to run...

基于核函数的记忆网络用于视频目标分割

Hongje Seong Junhyuk Hyun Euntai Kim

摘要

半监督视频对象分割(Semi-supervised Video Object Segmentation, VOS)是一项任务,即在第一帧中提供目标对象的真实分割掩码的情况下,预测视频中后续帧中该目标对象的分割结果。近年来,时空记忆网络(Space-Time Memory Networks, STM)因其出色的性能而成为解决半监督VOS问题的有前景方案。然而,在将STM应用于VOS任务时,一个关键问题被忽视了:STM本身具有非局部特性,而VOS任务本质上是局部性的。为解决STM与VOS之间的这一本质不匹配问题,我们提出了一种核化记忆网络(Kernelized Memory Network, KMN)。在真实视频上进行训练之前,我们的KMN首先在静态图像上进行预训练,这一策略延续了以往的工作。然而,与以往方法不同的是,我们在预训练阶段引入了“藏匿与寻找”(Hide-and-Seek)策略,以显著提升模型在处理遮挡情况以及精确提取分割边界方面的性能。实验结果表明,所提出的KMN在标准基准测试中显著超越现有最先进方法,尤其在DAVIS 2017测试开发集上取得了+5%的性能提升。此外,KMN在DAVIS 2016验证集上的单帧推理时间为0.12秒,且与STM相比,几乎不引入额外的计算开销,具有优异的实时性与效率。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供