8 个月前

多模态表征

视觉文档检索

Jianfeng Dong Xirong Li, Member, IEEE Chaoxi Xu Xun Yang Gang Yang Xun Wang, Member, IEEE Meng Wang, Fellow, IEEE

摘要

本文探讨了通过文本进行视频检索这一具有挑战性的问题。在这样的检索范式中，终端用户仅通过自然语言句子描述的即时查询来搜索未标注的视频，而不提供任何视觉示例。鉴于视频由一系列帧组成，查询则由一系列单词构成，有效的序列到序列跨模态匹配至关重要。为此，首先需要将这两种模态编码为实值向量，然后将其投影到一个共同的空间中。在本文中，我们通过提出一种双深度编码网络来实现这一点，该网络能够将视频和查询编码为其各自的强大密集表示形式。我们的创新之处体现在两个方面：首先，不同于以往依赖特定单层编码器的方法，所提出的网络执行多层编码，以从粗到细的方式表示两种模态的丰富内容；其次，不同于传统的基于概念或潜在空间的共同空间学习算法，我们引入了一种混合空间学习方法，该方法结合了潜在空间的高性能和概念空间的良好可解释性。双编码在概念上简单明了，在实践中效果显著，并且可以通过混合空间学习进行端到端训练。在四个具有挑战性的视频数据集上的广泛实验表明了新方法的有效性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

视觉文档检索

Jianfeng Dong Xirong Li, Member, IEEE Chaoxi Xu Xun Yang Gang Yang Xun Wang, Member, IEEE Meng Wang, Fellow, IEEE

摘要

本文探讨了通过文本进行视频检索这一具有挑战性的问题。在这样的检索范式中，终端用户仅通过自然语言句子描述的即时查询来搜索未标注的视频，而不提供任何视觉示例。鉴于视频由一系列帧组成，查询则由一系列单词构成，有效的序列到序列跨模态匹配至关重要。为此，首先需要将这两种模态编码为实值向量，然后将其投影到一个共同的空间中。在本文中，我们通过提出一种双深度编码网络来实现这一点，该网络能够将视频和查询编码为其各自的强大密集表示形式。我们的创新之处体现在两个方面：首先，不同于以往依赖特定单层编码器的方法，所提出的网络执行多层编码，以从粗到细的方式表示两种模态的丰富内容；其次，不同于传统的基于概念或潜在空间的共同空间学习算法，我们引入了一种混合空间学习方法，该方法结合了潜在空间的高性能和概念空间的良好可解释性。双编码在概念上简单明了，在实践中效果显著，并且可以通过混合空间学习进行端到端训练。在四个具有挑战性的视频数据集上的广泛实验表明了新方法的有效性。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供