6 个月前

摘要

参考视频目标分割（Referring Video Object Segmentation, R-VOS）是一项新兴的跨模态任务，旨在根据语言描述在视频的所有帧中准确分割出对应的目标对象。本文提出了一种基于Transformer的简洁且统一的框架，称为ReferFormer。该方法将语言描述视为查询（queries），并直接关注视频帧中与之最相关的内容区域。具体而言，我们引入了一组数量较少、基于语言条件生成的对象查询作为Transformer的输入。通过这种方式，所有查询被强制仅用于定位被语言所指代的目标对象。这些查询最终被转换为动态核（dynamic kernels），以捕捉关键的对象级信息，并作为卷积滤波器，从特征图中生成分割掩码。由于查询在帧间具有天然的对应关系，因此目标跟踪过程也得以自然实现。这一机制极大简化了整体流程，且整个端到端框架与以往方法有显著差异。在Ref-Youtube-VOS、Ref-DAVIS17、A2D-Sentences和JHMDB-Sentences等多个基准数据集上的大量实验验证了ReferFormer的有效性。在Ref-Youtube-VOS数据集上，使用ResNet-50作为主干网络时，ReferFormer在不依赖额外技巧（bells and whistles）的情况下取得了55.6的J&F（平均交并比与F值）成绩，相比此前的最先进方法提升了8.4个百分点。此外，当采用强大的Swin-Large主干网络时，ReferFormer在所有现有方法中取得了最高的J&F值64.2。同时，在A2D-Sentences和JHMDB-Sentences数据集上，ReferFormer分别取得了55.0 mAP和43.7 mAP的优异表现，显著超越了先前方法，优势明显。代码已公开，可访问：https://github.com/wjn922/ReferFormer。

源 PDF