
摘要
视频-语言嵌入为向视觉表征中注入语义信息提供了一条有前景的路径,但现有方法仅能捕捉持续数秒的视频片段与其对应文本之间的短期关联。为此,我们提出HierVL——一种新型的分层视频-语言嵌入模型,能够同时建模长期与短期关联。在训练数据方面,我们采用带有时间戳的人类行为文本描述的视频,以及对整段视频活动的高层级文本摘要(如Ego4D数据集中所提供的)。我们设计了一种分层对比学习目标,促使文本与视觉信息在片段级别和视频级别均实现对齐。其中,片段级别的约束利用逐步描述来捕捉当前时刻正在发生的内容,而视频级别的约束则通过摘要文本捕捉行为发生的深层原因,即活动的宏观背景与行为者的意图。所提出的分层架构不仅使片段级表示优于单一层次的基准方法,还实现了在需要长期视频建模任务上的最先进(SotA)性能。HierVL在多个具有挑战性的下游任务(包括EPIC-KITCHENS-100、Charades-Ego和HowTo100M)中,无论是在零样本(zero-shot)还是微调(fine-tuned)设置下,均展现出优异的迁移能力。