7 天前

Rudder:一个跨语言视频与文本检索数据集

Jayaprakash A, Abhishek, Rishabh Dabral, Ganesh Ramakrishnan, Preethi Jyothi
Rudder:一个跨语言视频与文本检索数据集
摘要

使用自然语言查询进行视频检索,需要学习文本与音视频输入之间的语义上有意义的联合嵌入表示。通常,这类联合嵌入是通过成对(或三元组)对比损失目标来学习的,但这类方法在训练过程中难以充分关注“难以检索”的样本。这一问题在数据稀缺场景下尤为突出——当数据量相对较小(仅为大规模 MSR-VTT 数据集的 10%)时,难以充分覆盖复杂的音视频嵌入空间。在此背景下,我们提出了 Rudder:一个支持多语言的视频-文本检索数据集,包含马拉地语、印地语、泰米尔语、卡纳达语、马拉雅拉姆语和泰卢固语的音频与文本字幕。为进一步缓解数据稀缺问题,我们提出利用领域知识增强监督信号。为此,除了传统的三元组结构(锚点、正样本、负样本)外,我们引入第四个组成部分——“部分样本”(partial),构建一种基于偏序关系的差异化边界损失(differential margin based partial-order loss)。这些“部分样本”通过启发式方式采样,其语义上位于正样本与负样本的重叠区域,从而实现更广泛的嵌入空间覆盖。实验结果表明,我们的方法在多个指标上持续优于传统的最大边界损失(max-margin)和三元组损失,并在 MSR-VTT 与 DiDeMO 数据集上显著提升了当前最优性能。我们在 Rudder 数据集上建立了基准测试结果,同时观察到所提出的偏序损失在跨语言对齐的加持下,尤其在联合训练各语言特定检索模型时,带来了显著的性能提升。