HyperAIHyperAI

Command Palette

Search for a command to run...

视频问答与检索的联合序列融合模型

Youngjae Yu Jongseok Kim Gunhee Kim

摘要

我们提出了一种名为JSFusion(Joint Sequence Fusion,联合序列融合)的方法,该方法可以测量任意两组多模态序列数据(例如视频片段和语言句子)之间的语义相似度。我们的多模态匹配网络包含两个关键组件。首先,联合语义张量将两个序列数据的密集配对表示组合成一个三维张量。然后,卷积层次解码器通过发现两个序列模态之间的隐藏层次匹配来计算它们的相似度得分。这两个模块均利用了层次注意力机制,该机制自下而上地学习提升良好匹配的表示模式,同时剪枝掉错位的模式。尽管JSFusion是一个适用于任何多模态序列数据的通用模型,但本研究的重点在于视频-语言任务,包括多模态检索和视频问答。我们在LSMDC数据集上的三项检索和VQA任务中评估了JSFusion模型,结果表明我们的模型达到了迄今为止报告的最佳性能。此外,我们还在MSR-VTT数据集上进行了多项选择和电影检索任务,我们的方法在这些任务中也优于许多现有的最先进方法。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视频问答与检索的联合序列融合模型 | 论文 | HyperAI超神经