9 天前
MDMMT:面向视频检索的多领域多模态Transformer
Maksim Dzabraev, Maksim Kalashnikov, Stepan Komkov, Aleksandr Petiushko

摘要
我们在MSRVTT和LSMDC基准测试上的文本到视频检索任务中提出了一项新的最先进(state-of-the-art)方法,该模型在性能上大幅超越了此前所有解决方案。此外,仅使用单一模型且无需微调,即可在两个数据集上均取得当前最优结果。这种跨领域的泛化能力,得益于对多种视频字幕数据集的合理组合。我们证明了在不同数据集上进行联合训练,能够相互提升各自的测试表现。此外,我们对多个主流数据集之间的交集进行了分析,发现MSRVTT在测试集与训练集之间存在显著重叠,ActivityNet数据集也呈现出类似情况。