6 个月前

摘要

参考视频对象分割（Referring Video Object Segmentation, RVOS）旨在根据对目标对象的文本描述，从给定视频中分割出该对象实例。然而，在开放世界场景中，对象描述在内容上往往多样化，且长度灵活多变。这一特性带来了RVOS的核心挑战：不同对象的描述对应视频中不同的时间尺度，而现有大多数方法采用单一帧采样步长，未能充分考虑这一时间尺度的差异。为解决该问题，本文提出一种简洁高效的混合时间尺度多模态学习框架（Hybrid Temporal-scale Multimodal Learning, HTML），通过在不同时间尺度上分层学习多模态交互，实现语言与视觉特征的有效对齐，从而挖掘视频中目标对象的核心语义。具体而言，我们设计了一种新颖的跨尺度多模态感知模块，使语言查询能够动态地与多时间尺度下的视觉特征进行交互，有效通过跨尺度传递视频上下文信息，缓解复杂对象间的混淆问题。在广泛使用的多个基准数据集上进行了大量实验，包括Ref-Youtube-VOS、Ref-DAVIS17、A2D-Sentences和JHMDB-Sentences，结果表明，所提出的HTML框架在所有数据集上均取得了当前最优的性能。

源 PDF