1 个月前

利用已有资源:基于协作专家表示的视频检索

Yang Liu; Samuel Albanie; Arsha Nagrani; Andrew Zisserman
利用已有资源:基于协作专家表示的视频检索
摘要

互联网视频的快速增长使得使用自然语言查询搜索视频内容成为一项重大挑战。对于“野生”(in the wild)视频数据集,人类生成的查询在具体程度上差异很大,有些查询描述了具体的细节,如著名人物的姓名、演讲内容或屏幕上的文字。我们的目标是将视频中的多模态、极高维度的信息压缩成一个紧凑的视频表示,以便使用自由形式的文本查询进行视频检索,其中的具体程度是开放式的。为此,我们利用现有的知识,即预训练的语义嵌入,这些嵌入包括从视觉内容中提取的“一般”特征,如运动、外观和场景特征。我们还探索了来自自动语音识别(ASR)和光学字符识别(OCR)的更为“具体”的线索,这些线索在视频中偶尔可用,并发现这些信号在检索任务中仍然难以有效利用。我们提出了一种协作专家模型来聚合这些不同预训练专家提供的信息,并在五个检索基准数据集上对我们的方法进行了实证评估:MSR-VTT、LSMDC、MSVD、DiDeMo 和 ActivityNet。代码和数据可在 www.robots.ox.ac.uk/~vgg/research/collaborative-experts/ 获取。本文对前一版本报告的结果进行了修正。