
摘要
本文提出ActBERT,一种用于从无标注数据中进行视频-文本联合表示自监督学习的新方法。首先,我们利用全局动作信息来促进语言文本与局部区域物体之间的相互作用,从而从配对的视频序列与文本描述中挖掘出全局与局部的视觉线索,实现对视觉与文本关系的精细化建模。其次,我们引入一种ENtangled Transformer模块(ENT),用于编码三类信息:全局动作、局部区域物体以及语言描述。通过从上下文信息中精心提取线索,该模块能够发现全局与局部之间的对应关系,从而促使视频-文本联合表示同时关注细粒度物体特征以及整体的人类意图。我们在多个下游视频与语言任务上验证了ActBERT的泛化能力,包括文本-视频片段检索、视频字幕生成、视频问答、动作分割以及动作步骤定位。实验结果表明,ActBERT显著优于现有最先进方法,充分展现了其在视频-文本表示学习方面的优越性能。