2 个月前

数据漫游与合成图像检索的质量评估

Levy, Matan ; Ben-Ari, Rami ; Darshan, Nir ; Lischinski, Dani
数据漫游与合成图像检索的质量评估
摘要

组合图像检索(Composed Image Retrieval, CoIR)任务涉及将图像和文本模态结合的查询,使用户能够更有效地表达其意图。然而,当前的CoIR数据集规模与其他视觉与语言(Vision and Language, V&L)数据集相比要小几个数量级。此外,这些数据集中的一些存在明显的问题,例如查询中包含冗余模态。为了解决这些问题,我们引入了大规模组合图像检索(Large Scale Composed Image Retrieval, LaSCo)数据集,这是一个比现有数据集大十倍的新CoIR数据集。在LaSCo上进行预训练显示了显著的性能提升,即使是在零样本情况下也是如此。此外,我们提出了一种新的分析CoIR数据集和方法的途径,该方法可以检测查询中的模态冗余或必要性。我们还介绍了一种新的CoIR基线模型——交叉注意力驱动的移位编码器(Cross-Attention driven Shift Encoder, CASE)。这一基线模型通过交叉注意力模块实现模态的早期融合,并在训练过程中引入了一个额外的辅助任务。实验结果表明,这种新的基线模型在诸如FashionIQ和CIRR等已建立的基准测试中超越了现有的最先进方法。