7 天前
HiTeA:分层时序感知视频-语言预训练
Qinghao Ye, Guohai Xu, Ming Yan, Haiyang Xu, Qi Qian, Ji Zhang, Fei Huang

摘要
视频-语言预训练已显著提升了各类下游视频-语言任务的性能。然而,以往大多数方法直接沿用或简单适配图像-语言预训练范式至视频-语言领域,未能充分挖掘视频数据所独有的时序特性。为此,本文提出一种分层时序感知的视频-语言预训练框架——HiTeA(Hierarchical Temporal-Aware),并设计了两项新颖的预训练任务,用于建模视频片段与文本之间的跨模态对齐关系,以及视频-文本对之间的时序关联。具体而言,我们提出了一种跨模态片段探索任务(cross-modal moment exploration task),用于在视频中自动发现并表征关键片段,从而获得更精细的视频片段表示。此外,通过多模态时序关系探索任务,将视频-文本对在不同时间分辨率下整体对齐,有效捕捉其内在时序结构。为进一步评估数据集及预训练模型对时序信息的依赖程度,我们引入了打乱测试(shuffling test)方法。实验结果表明,HiTeA在15个广泛使用的视频-语言理解与生成任务上均取得当前最优性能,尤其在面向时序感知的任务上表现突出,如SSv2-Template与SSv2-Label数据集上分别提升8.6%和11.1%。此外,HiTeA在零样本(zero-shot)迁移至下游任务时也展现出强大的泛化能力。相关模型与演示代码将上线ModelScope平台,供研究社区使用。