2 个月前

利用自然语言学习电影理解的语言-视觉嵌入

Atousa Torabi; Niket Tandon; Leonid Sigal
利用自然语言学习电影理解的语言-视觉嵌入
摘要

学习联合语言-视觉嵌入具有许多非常吸引人的特性,并且可以产生多种实际应用,包括自然语言图像/视频注释和搜索。在本研究中,我们探讨了三种不同的联合语言-视觉神经网络模型架构。我们在大规模LSMDC16电影数据集上对这些模型进行了评估,涉及两个任务:1)用于视频注释和检索的标准排名;2)我们提出的电影多项选择测试。该测试有助于基于人类活动自动评估视觉-语言模型的自然语言视频注释能力。除了作为LSMDC16一部分提供的原始音频描述(AD)字幕外,我们还收集并发布了以下内容:a)通过Amazon MTurk手动生成的那些字幕的改写版本;b)基于“Knowlywood”(一种活动知识挖掘模型)自动生成的人类活动元素的“谓词+宾语”(PO)短语。我们的最佳模型在1000个样本子集上的注释任务中达到了19.2%的Recall@10,在视频检索任务中达到了18.9%的Recall@10。对于多项选择测试,我们的最佳模型在整个LSMDC16公开测试集上实现了58.11%的准确率。