2 个月前

无训练域转换的组合图像检索

Nikos Efthymiadis; Bill Psomas; Zakaria Laskar; Konstantinos Karantzalos; Yannis Avrithis; Ondřej Chum; Giorgos Tolias
无训练域转换的组合图像检索
摘要

这项研究在域转换的背景下探讨了组合图像检索问题,即根据查询文本指定的域检索查询图像的内容。我们展示了强大的视觉-语言模型在无需额外训练的情况下提供了足够的描述能力。通过文本反转技术,查询图像被映射到文本输入空间。与通常在连续的文本标记空间中进行反转的做法不同,我们使用离散词汇空间,通过在文本词汇表中进行最近邻搜索来实现这一目标。借助这种反转方法,图像可以在词汇表中进行软映射,并通过基于检索的增强技术提高其鲁棒性。数据库中的图像通过加权集成的文本查询进行检索,这些查询结合了映射后的单词和域文本。我们的方法在标准基准和新引入的基准上均大幅优于现有技术。代码:https://github.com/NikosEfth/freedom