6 个月前

摘要

我们在MSRVTT和LSMDC基准测试上的文本到视频检索任务中提出了一项新的最先进（state-of-the-art）方法，该模型在性能上大幅超越了此前所有解决方案。此外，仅使用单一模型且无需微调，即可在两个数据集上均取得当前最优结果。这种跨领域的泛化能力，得益于对多种视频字幕数据集的合理组合。我们证明了在不同数据集上进行联合训练，能够相互提升各自的测试表现。此外，我们对多个主流数据集之间的交集进行了分析，发现MSRVTT在测试集与训练集之间存在显著重叠，ActivityNet数据集也呈现出类似情况。

源 PDF