HyperAIHyperAI

Command Palette

Search for a command to run...

自指视角视频-语言预训练

摘要

视频-文本预训练(Video-Language Pretraining, VLP)旨在学习可迁移的表征,以推动各类视频-文本下游任务的发展,近年来受到越来越多关注。目前表现最佳的方法主要依赖于大规模的第三人称视角视频-文本数据集,例如 HowTo100M。在本工作中,我们利用近期发布的 Ego4D 数据集,首次从三个方向探索第一人称视角视频-文本预训练(Egocentric VLP):(i)我们构建了 EgoClip,一个第一人称视角的视频-文本预训练数据集,包含从 Ego4D 中精心筛选的 380 万对视频片段与文本描述,覆盖了丰富多样的人类日常活动;(ii)我们提出一种新型预训练目标——EgoNCE,通过挖掘具有第一人称视角感知能力的正样本与负样本,将视频-文本对比学习方法适配至第一人称视角场景;(iii)我们引入 EgoMCQ,一个与 EgoClip 高度匹配的开发基准,能够有效支持对 EgoClip 与 EgoNCE 设计决策的验证与快速探索。此外,我们在三个数据集上的五个第一人称视角下游任务中均展现出强劲性能:在 EPIC-KITCHENS-100 数据集上实现视频-文本检索;在 Charades-Ego 数据集上完成动作识别;在 Ego4D 挑战基准上完成自然语言查询、时刻查询以及物体状态变化分类任务。相关数据集与代码已公开,访问地址为:https://github.com/showlab/EgoVLP


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供