6 个月前

摘要

基于文本的视频分割旨在通过文本查询指定特定演员及其执行的动作，从而对视频序列中的目标演员进行分割。以往的方法由于存在语义不对称（semantic asymmetry）问题，难以在细粒度层面显式地将视频内容与文本查询在演员及其动作层面进行对齐。所谓“语义不对称”指的是在多模态融合过程中，两种模态（视频与文本）所包含的语义信息量不一致，导致匹配效果受限。为缓解该问题，我们提出一种新型的演员与动作解耦网络架构，通过两个独立模块分别定位演员及其动作。具体而言，我们首先从视频和文本查询中分别提取与演员和动作相关的内容，随后以对称的方式进行匹配，从而精确定位目标时序管（target tube）。该目标管包含所期望的演员及其动作，随后被输入全卷积网络，以预测演员的分割掩码。此外，我们引入了一种新颖的时序提议聚合机制（temporal proposal aggregation mechanism），有效建立跨多帧物体之间的关联，从而保证分割结果在时间维度上的一致性。整个模型支持演员-动作匹配与分割任务的联合学习，在A2D Sentences和J-HMDB Sentences数据集上均取得了单帧分割与全视频分割的最先进性能。

源 PDF