11 天前

HTML:面向指代视频目标分割的混合时间尺度多模态学习框架

{Yu Qiao, Xiaojun Chang, Lina Yao, Zhihui Li, Yali Wang, Mingfei Han}
HTML:面向指代视频目标分割的混合时间尺度多模态学习框架
摘要

参考视频对象分割(Referring Video Object Segmentation, RVOS)旨在根据对目标对象的文本描述,从给定视频中分割出该对象实例。然而,在开放世界场景中,对象描述在内容上往往多样化,且长度灵活多变。这一特性带来了RVOS的核心挑战:不同对象的描述对应视频中不同的时间尺度,而现有大多数方法采用单一帧采样步长,未能充分考虑这一时间尺度的差异。为解决该问题,本文提出一种简洁高效的混合时间尺度多模态学习框架(Hybrid Temporal-scale Multimodal Learning, HTML),通过在不同时间尺度上分层学习多模态交互,实现语言与视觉特征的有效对齐,从而挖掘视频中目标对象的核心语义。具体而言,我们设计了一种新颖的跨尺度多模态感知模块,使语言查询能够动态地与多时间尺度下的视觉特征进行交互,有效通过跨尺度传递视频上下文信息,缓解复杂对象间的混淆问题。在广泛使用的多个基准数据集上进行了大量实验,包括Ref-Youtube-VOS、Ref-DAVIS17、A2D-Sentences和JHMDB-Sentences,结果表明,所提出的HTML框架在所有数据集上均取得了当前最优的性能。

HTML:面向指代视频目标分割的混合时间尺度多模态学习框架 | 最新论文 | HyperAI超神经