2 个月前

VisualSparta:一种基于加权词袋模型的大规模文本到图像搜索的极其简单的方法

Xiaopeng Lu; Tiancheng Zhao; Kyusong Lee
VisualSparta:一种基于加权词袋模型的大规模文本到图像搜索的极其简单的方法
摘要

文本到图像检索是跨模态信息检索中的一个重要任务,即根据文本查询从大量未标注的数据集中检索相关图像。在本文中,我们提出了一种名为VisualSparta(视觉-文本稀疏变换器匹配)的新模型,在准确性和效率方面均显示出显著改进。VisualSparta能够在MSCOCO和Flickr30K数据集上超越之前的最先进可扩展方法。此外,实验结果表明,它在检索速度上也具有明显优势,例如对于包含100万张图像的索引,使用CPU进行检索时,VisualSparta的速度比CPU向量搜索快约391倍,比使用GPU加速的向量搜索快约5.4倍。随着数据集规模的增大,这种速度优势更加明显,因为VisualSparta可以高效地实现为倒排索引。据我们所知,VisualSparta是首个基于变换器的文本到图像检索模型,能够在大规模数据集上实现实时搜索,并且相比之前的最先进方法在准确性上有显著提升。