11 天前

基于跨模态自注意力网络的图像与视频指代分割

Linwei Ye, Mrigank Rochan, Zhi Liu, Xiaoqin Zhang, Yang Wang

摘要

我们研究图像与视频中基于自然语言的指代表达分割问题。给定一张输入图像（或视频）及一个指代表达，目标是从图像或视频中分割出该表达所指代的实体。本文提出一种跨模态自注意力（Cross-Modal Self-Attention, CMSA）模块，能够有效利用单个词汇的细粒度语义信息以及输入图像或视频的视觉特征，从而捕捉语言特征与视觉特征之间的长距离依赖关系。所提模型可自适应地聚焦于指代表达中的关键词汇以及视觉输入中的重要区域。此外，我们进一步设计了一种门控多层级融合（Gated Multi-Level Fusion, GMLF）模块，用于有选择性地融合对应于不同视觉层级的自注意力跨模态特征。该模块通过融合高层与低层语义信息，对不同层级特征的信息流进行调控，实现对多尺度视觉语义的精准整合。针对视频场景，我们还引入了跨帧自注意力（Cross-Frame Self-Attention, CFSA）模块，以高效整合连续帧间的时序信息，从而将方法拓展至视频指代表达分割任务。在四个主流图像指代表达分割数据集以及两个演员与动作视频分割数据集上的大量实验结果表明，所提出的模型在各项指标上均显著优于现有最先进方法，验证了其有效性与优越性。