HyperAIHyperAI

Command Palette

Search for a command to run...

基于多模态线索的联合嵌入学习用于跨模态视频-文本检索

Amit K. Roy-Chowdhury Niluthpol Chowdhury Mithun Juncheng Li Florian Metze

摘要

在众多多媒体应用中,构建跨模态不变的联合表示(如视频与语言模态)具有重要意义。尽管近年来在学习联合表示以实现高效图像-文本检索方面取得了多项成功,但视频-文本检索任务尚未得到充分探索。本文研究如何有效利用视频中可用的多模态线索,以提升跨模态视频-文本检索的性能。基于分析结果,我们提出一种新颖的框架,通过融合策略同时利用多种模态特征(包括不同的视觉特征、音频输入及文本信息),实现高效的检索。此外,我们在训练联合嵌入表示时探索了多种损失函数,并为该任务提出了一种改进的成对排序损失(modified pairwise ranking loss)。在MSVD和MSR-VTT数据集上的实验结果表明,所提方法相较于当前最先进的技术显著提升了性能。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于多模态线索的联合嵌入学习用于跨模态视频-文本检索 | 论文 | HyperAI超神经