2 个月前

SAMWISE:在SAM2中注入智慧以实现文本驱动的视频分割

Claudia Cuttano; Gabriele Trivigno; Gabriele Rosi; Carlo Masone; Giuseppe Averta
SAMWISE:在SAM2中注入智慧以实现文本驱动的视频分割
摘要

指代视频对象分割(Referring Video Object Segmentation, RVOS)依赖自然语言表达来分割视频片段中的目标对象。现有的方法要么限制在独立的短片段中进行推理,导致全局上下文的丢失,要么对整个视频进行离线处理,影响其在流式场景中的应用。在这项工作中,我们旨在超越这些限制,设计一种能够在类似流式场景中有效运行的同时保留过去帧上下文信息的RVOS方法。我们基于Segment-Anything 2(SAM2)模型进行改进,该模型提供了强大的分割和跟踪能力,并且天然适合流式处理。为了使SAM2更加智能,我们在特征提取阶段为其赋予自然语言理解和显式的时序建模能力,而无需微调其权重,也不需要将模态交互外包给外部模型。为此,我们引入了一种新的适配器模块,该模块在特征提取过程中注入时序信息和多模态线索。此外,我们揭示了SAM2中存在的跟踪偏差现象,并提出了一种可学习的模块来调整其跟踪焦点,当当前帧特征表明有更符合描述的新对象时。我们提出的SAMWISE方法在各种基准测试中达到了最先进的水平,仅增加了不到5M参数的额外开销。代码可在https://github.com/ClaudiaCuttano/SAMWISE 获取。

SAMWISE:在SAM2中注入智慧以实现文本驱动的视频分割 | 最新论文 | HyperAI超神经