2 个月前

基于文本的视频检索双重编码方法

Dong, Jianfeng ; Li, Xirong ; Xu, Chaoxi ; Yang, Xun ; Yang, Gang ; Wang, Xun ; Wang, Meng
基于文本的视频检索双重编码方法
摘要

本文探讨了通过文本进行视频检索这一具有挑战性的问题。在这样的检索范式中,终端用户仅通过自然语言句子描述的即时查询来搜索未标注的视频,而不提供任何视觉示例。鉴于视频由一系列帧组成,查询则由一系列单词构成,有效的序列到序列跨模态匹配至关重要。为此,首先需要将这两种模态编码为实值向量,然后将其投影到一个共同的空间中。在本文中,我们通过提出一种双深度编码网络来实现这一点,该网络能够将视频和查询编码为其各自的强大密集表示形式。我们的创新之处体现在两个方面:首先,不同于以往依赖特定单层编码器的方法,所提出的网络执行多层编码,以从粗到细的方式表示两种模态的丰富内容;其次,不同于传统的基于概念或潜在空间的共同空间学习算法,我们引入了一种混合空间学习方法,该方法结合了潜在空间的高性能和概念空间的良好可解释性。双编码在概念上简单明了,在实践中效果显著,并且可以通过混合空间学习进行端到端训练。在四个具有挑战性的视频数据集上的广泛实验表明了新方法的有效性。

基于文本的视频检索双重编码方法 | 最新论文 | HyperAI超神经