
摘要
本文的研究目标是视频-文本检索任务,重点在于构建一种联合嵌入(joint embedding)机制,以实现高效的文本到视频检索。该领域面临的主要挑战包括视觉模型架构的设计,以及训练数据本身的特性:现有的大规模视频-文本训练数据集(如 HowTo100M)通常存在噪声,因此当前的先进性能仅能在大规模计算资源支持下通过海量数据训练才能实现。本文针对上述两个挑战提出了相应的解决方案。我们提出了一种端到端可训练的模型,该模型旨在充分利用大规模图像和视频字幕数据集的潜力。该模型基于近期提出的 ViT(Vision Transformer)与 Timesformer 架构进行改进与扩展,引入了时空联合注意力机制,能够同时建模空间与时间维度的信息。该模型具有高度灵活性,既可独立地在图像或视频文本数据集上进行训练,也可联合训练。在训练策略上,我们采用了一种课程学习(curriculum learning)方案:初始阶段将图像视为视频的“冻结”快照,随后在视频数据集上逐步训练模型,使其学会关注更长的时序上下文信息。此外,我们构建了一个新的视频-文本预训练数据集 WebVid-2M,包含超过两百万个从互联网上自动抓取的弱标注视频。尽管训练所用数据集规模仅为现有主流数据集的十分之一,我们的方法在多个标准下游视频检索基准测试(包括 MSR-VTT、MSVD、DiDeMo 和 LSMDC)上仍取得了当前最优的性能表现,验证了所提方法的有效性与高效性。