2 个月前

CoVR-2:复合视频检索的自动数据构建

Ventura, Lucas ; Yang, Antoine ; Schmid, Cordelia ; Varol, Gül
CoVR-2:复合视频检索的自动数据构建
摘要

组合图像检索(Composed Image Retrieval, CoIR)近年来作为一种同时考虑文本和图像查询的任务,以在数据库中搜索相关图像而受到关注。大多数CoIR方法需要手动标注的数据集,这些数据集包含图像-文本-图像三元组,其中文本描述了从查询图像到目标图像的修改。然而,手动创建CoIR三元组的成本高昂且难以扩展。在这项工作中,我们提出了一种可扩展的自动数据集创建方法,该方法利用视频-字幕对生成三元组,并将任务范围扩展到组合视频检索(Composed Video Retrieval, CoVR)。为此,我们从大型数据库中挖掘具有相似字幕的配对视频,并利用大规模语言模型生成相应的修改文本。我们将这种方法应用于庞大的WebVid2M集合,自动构建了我们的WebVid-CoVR数据集,共生成160万个三元组。此外,我们引入了一个新的CoVR基准测试,并提供了一个手动标注的评估集以及基线结果。为了进一步验证我们的方法同样适用于图像-字幕对,我们使用Conceptual Captions数据集生成了330万个CoIR训练三元组。我们的模型基于BLIP-2预训练,并适应于组合视频(或图像)检索,通过引入额外的字幕检索损失来利用超出三元组之外的监督信息。我们提供了广泛的消融实验来分析新CoVR基准测试中的设计选择。实验还表明,在我们的数据集上训练的CoVR模型可以有效地迁移到CoIR,在CIRR、FashionIQ和CIRCO基准测试的零样本设置中取得了改进的最先进性能。我们的代码、数据集和模型已在https://imagine.enpc.fr/~ventural/covr/ 公开发布。

CoVR-2:复合视频检索的自动数据构建 | 最新论文 | HyperAI超神经