HyperAIHyperAI

Command Palette

Search for a command to run...

MDMMT:面向视频检索的多领域多模态Transformer

Maksim Dzabraev Maksim Kalashnikov Stepan Komkov Aleksandr Petiushko

摘要

我们在MSRVTT和LSMDC基准测试上的文本到视频检索任务中提出了一项新的最先进(state-of-the-art)方法,该模型在性能上大幅超越了此前所有解决方案。此外,仅使用单一模型且无需微调,即可在两个数据集上均取得当前最优结果。这种跨领域的泛化能力,得益于对多种视频字幕数据集的合理组合。我们证明了在不同数据集上进行联合训练,能够相互提升各自的测试表现。此外,我们对多个主流数据集之间的交集进行了分析,发现MSRVTT在测试集与训练集之间存在显著重叠,ActivityNet数据集也呈现出类似情况。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供