17 天前

自指视角视频-语言预训练

Kevin Qinghong Lin, Alex Jinpeng Wang, Mattia Soldan, Michael Wray, Rui Yan, Eric Zhongcong Xu, Difei Gao, Rongcheng Tu, Wenzhe Zhao, Weijie Kong, Chengfei Cai, Hongfa Wang, Dima Damen, Bernard Ghanem, Wei Liu, Mike Zheng Shou

查看论文详情

摘要

视频-文本预训练（Video-Language Pretraining, VLP）旨在学习可迁移的表征，以推动各类视频-文本下游任务的发展，近年来受到越来越多关注。目前表现最佳的方法主要依赖于大规模的第三人称视角视频-文本数据集，例如 HowTo100M。在本工作中，我们利用近期发布的 Ego4D 数据集，首次从三个方向探索第一人称视角视频-文本预训练（Egocentric VLP）：（i）我们构建了 EgoClip，一个第一人称视角的视频-文本预训练数据集，包含从 Ego4D 中精心筛选的 380 万对视频片段与文本描述，覆盖了丰富多样的人类日常活动；（ii）我们提出一种新型预训练目标——EgoNCE，通过挖掘具有第一人称视角感知能力的正样本与负样本，将视频-文本对比学习方法适配至第一人称视角场景；（iii）我们引入 EgoMCQ，一个与 EgoClip 高度匹配的开发基准，能够有效支持对 EgoClip 与 EgoNCE 设计决策的验证与快速探索。此外，我们在三个数据集上的五个第一人称视角下游任务中均展现出强劲性能：在 EPIC-KITCHENS-100 数据集上实现视频-文本检索；在 Charades-Ego 数据集上完成动作识别；在 Ego4D 挑战基准上完成自然语言查询、时刻查询以及物体状态变化分类任务。相关数据集与代码已公开，访问地址为：https://github.com/showlab/EgoVLP。