2 个月前

UniVS:统一且通用的视频分割方法——以提示作为查询

Minghan Li; Shuai Li; Xindong Zhang; Lei Zhang
UniVS:统一且通用的视频分割方法——以提示作为查询
摘要

尽管在统一图像分割(IS)方面取得了近期进展,但开发统一视频分割(VS)模型仍然是一项挑战。这主要是因为通用类别指定的VS任务需要检测所有对象并跨连续帧进行跟踪,而提示引导的VS任务则需要在整个视频中通过视觉/文本提示重新识别目标,使得用同一架构处理不同任务变得困难。我们尝试解决这些问题,并提出了一种新颖的统一VS架构,即UniVS,通过将提示作为查询来实现。UniVS通过对先前帧中的目标提示特征进行平均,将其作为初始查询以显式解码掩模,并在掩模解码器中引入了针对目标的提示交叉注意力层,以整合记忆池中的提示特征。通过将先前帧中预测的实体掩模作为其视觉提示,UniVS将不同的VS任务转换为提示引导的目标分割,消除了启发式的帧间匹配过程。我们的框架不仅统一了不同的VS任务,还自然地实现了通用训练和测试,确保在不同场景下具有稳健的表现。UniVS在10个具有挑战性的VS基准上展示了令人称赞的性能与通用性平衡,涵盖了视频实例、语义、全景、对象和指代分割任务。代码可在\url{https://github.com/MinghanLi/UniVS}获取。

UniVS:统一且通用的视频分割方法——以提示作为查询 | 最新论文 | HyperAI超神经