18 天前
PIDRo:用于文本-视频检索的并行异构注意力与动态路由
{Edmund Y. Lam, Youliang Yan, Songcen Xu, Hang Xu, Jiaxi Gu, Weimian Li, Jianzhuang Liu, Bin Shao, Renjing Pei, Peiyan Guan}

摘要
文本-视频检索是多模态研究中一项基础性且具有高度实用价值的任务。受大规模预训练图像-文本模型(如CLIP)取得巨大成功的启发,众多方法被提出,旨在将CLIP强大的表示学习能力迁移至文本-视频检索任务中。然而,由于视频与图像在模态特性上的差异,如何有效将CLIP适配到视频领域仍是一个尚未充分探索的问题。本文从两个方面系统地研究该问题:首先,我们以无缝方式增强CLIP迁移而来的图像编码器,以实现对视频的细粒度理解;其次,从模型结构优化与损失函数设计两个层面,实现视频与文本之间的细粒度对比学习。特别地,本文提出一种名为PIDRo(Parallel Isomeric Attention with Dynamic Routing)的细粒度对比模型,用于文本-视频检索。其中,平行同构注意力(Parallel Isomeric Attention)模块作为视频编码器,由两个并行分支构成,分别从图像块(patch)和帧(frame)两个层级建模视频的时空信息。动态路由(Dynamic Routing)模块则被设计用于增强CLIP的文本编码器,通过将细粒度语义信息动态分配至句子中相关词元(word token),生成更具信息量的词表示。该模型设计能够生成富含语义的图像块、帧及词级表示,并在此基础上进行逐标记(token-wise)的交互建模。结合增强后的编码器结构与逐标记损失函数,本文方法实现了更精细的文本-视频对齐,显著提升了检索准确性。在多个主流文本-视频检索基准测试中,包括MSR-VTT、MSVD、LSMDC、DiDeMo和ActivityNet,PIDRo均取得了当前最优(state-of-the-art)的性能表现。