16 天前

TACo：面向视频-文本对齐的令牌感知级联对比学习

Jianwei Yang, Yonatan Bisk, Jianfeng Gao

摘要

对比学习已被广泛应用于基于Transformer的视觉-语言模型训练中，以实现视频与文本的对齐以及多模态表征学习。本文提出了一种名为Token-Aware级联对比学习（Token-Aware Cascade contrastive learning, TACo）的新算法，通过引入两种创新技术来提升对比学习的效果。首先，提出词元感知对比损失（token-aware contrastive loss），该损失在计算过程中考虑了文本中词语的句法类别。这一设计的动机源于观察发现：在视频-文本配对中，表示具体语义内容的词汇（如名词和动词）相较于功能词（如介词、连词）更有可能与视频中的视觉内容形成有效对齐。其次，采用一种级联采样方法（cascade sampling method），用于高效生成一组少量但具有挑战性的负样本，以支持多模态融合层的损失估计。为验证TACo的有效性，我们在一系列下游任务上对预训练模型进行了微调，包括文本-视频检索（YouCook2、MSR-VTT和ActivityNet）、视频动作步骤定位（CrossTask）以及视频动作分割（COIN）。实验结果表明，相较于先前方法，我们的模型在不同实验设置下均实现了稳定且一致的性能提升，并在YouCook2、MSR-VTT和ActivityNet三个公开的文本-视频检索基准上取得了新的最先进（state-of-the-art）水平。