
摘要
对比学习已被广泛应用于基于Transformer的视觉-语言模型训练中,以实现视频与文本的对齐以及多模态表征学习。本文提出了一种名为Token-Aware级联对比学习(Token-Aware Cascade contrastive learning, TACo)的新算法,通过引入两种创新技术来提升对比学习的效果。首先,提出词元感知对比损失(token-aware contrastive loss),该损失在计算过程中考虑了文本中词语的句法类别。这一设计的动机源于观察发现:在视频-文本配对中,表示具体语义内容的词汇(如名词和动词)相较于功能词(如介词、连词)更有可能与视频中的视觉内容形成有效对齐。其次,采用一种级联采样方法(cascade sampling method),用于高效生成一组少量但具有挑战性的负样本,以支持多模态融合层的损失估计。为验证TACo的有效性,我们在一系列下游任务上对预训练模型进行了微调,包括文本-视频检索(YouCook2、MSR-VTT和ActivityNet)、视频动作步骤定位(CrossTask)以及视频动作分割(COIN)。实验结果表明,相较于先前方法,我们的模型在不同实验设置下均实现了稳定且一致的性能提升,并在YouCook2、MSR-VTT和ActivityNet三个公开的文本-视频检索基准上取得了新的最先进(state-of-the-art)水平。