3 个月前

表达提示协作Transformer用于通用指代视频目标分割

Jiajun Chen, Jiacheng Lin, Guojin Zhong, Haolong Fu, Ke Nai, Kailun Yang, Zhiyong Li
表达提示协作Transformer用于通用指代视频目标分割
摘要

音频引导的视频目标分割(Audio-guided Video Object Segmentation, A-VOS)与指代表达视频目标分割(Referring Video Object Segmentation, R-VOS)是两项高度相关的任务,均旨在根据表达性提示从视频序列中分割出特定目标对象。然而,由于跨模态表征建模的挑战,现有方法难以在模态间交互的灵活性与定位精度之间取得平衡。本文从两个角度出发解决该问题:一是音频与文本模态之间的对齐,二是音频、文本与视觉模态之间的深度交互。首先,我们提出一种通用架构——表达提示协同Transformer(Expression Prompt Collaboration Transformer,简称EPCFormer)。其次,我们设计了一种表达对齐(Expression Alignment, EA)机制,用于实现音频与文本模态间的有效对齐。所提出的EPCFormer利用指向同一目标的音频与文本提示在语义上具有等价性的特点,通过对比学习分别建模两类表达,从而增强模态间的一致性。为进一步促进音频、文本与视觉模态之间的深度交互,我们引入了表达-视觉注意力(Expression-Visual Attention, EVA)模块。该模块通过深入挖掘文本与音频之间的互补线索,使基于表达提示的视频目标分割知识能够在A-VOS与R-VOS任务间实现无缝迁移。在多个公认基准数据集上的实验结果表明,所提出的EPCFormer在两项任务上均取得了当前最优的性能表现。项目源代码将公开发布于:https://github.com/lab206/EPCFormer。