1 个月前

从不完整和异质数据中学习文本-视频嵌入

Antoine Miech; Ivan Laptev; Josef Sivic
从不完整和异质数据中学习文本-视频嵌入
摘要

视频与语言的联合理解是一个活跃的研究领域,具有广泛的应用前景。此前在该领域的研究通常依赖于学习文本-视频嵌入。然而,这种方法的一个难点在于缺乏大规模标注的视频-字幕数据集用于训练。为了解决这一问题,我们致力于从异构数据源中学习文本-视频嵌入。为此,我们提出了一种混合嵌入专家(Mixture-of-Embedding-Experts, MEE)模型,该模型能够在训练过程中处理缺失的输入模态。因此,我们的框架可以从图像和视频数据集中同时学习改进的文本-视频嵌入。此外,我们还展示了MEE模型对其他输入模态(如面部描述符)的泛化能力。我们在视频检索任务上评估了我们的方法,并报告了在MPII电影描述和MSR-VTT数据集上的结果。所提出的MEE模型在这两个文本到视频和视频到文本检索任务中均表现出显著的改进,并优于之前报道的方法。代码可从以下链接获取:https://github.com/antoine77340/Mixture-of-Embedding-Experts

从不完整和异质数据中学习文本-视频嵌入 | 最新论文 | HyperAI超神经