8 个月前

Xiaopeng Lu; Tiancheng Zhao; Kyusong Lee

摘要

文本到图像检索是跨模态信息检索中的一个重要任务，即根据文本查询从大量未标注的数据集中检索相关图像。在本文中，我们提出了一种名为VisualSparta（视觉-文本稀疏变换器匹配）的新模型，在准确性和效率方面均显示出显著改进。VisualSparta能够在MSCOCO和Flickr30K数据集上超越之前的最先进可扩展方法。此外，实验结果表明，它在检索速度上也具有明显优势，例如对于包含100万张图像的索引，使用CPU进行检索时，VisualSparta的速度比CPU向量搜索快约391倍，比使用GPU加速的向量搜索快约5.4倍。随着数据集规模的增大，这种速度优势更加明显，因为VisualSparta可以高效地实现为倒排索引。据我们所知，VisualSparta是首个基于变换器的文本到图像检索模型，能够在大规模数据集上实现实时搜索，并且相比之前的最先进方法在准确性上有显著提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Xiaopeng Lu; Tiancheng Zhao; Kyusong Lee

摘要

文本到图像检索是跨模态信息检索中的一个重要任务，即根据文本查询从大量未标注的数据集中检索相关图像。在本文中，我们提出了一种名为VisualSparta（视觉-文本稀疏变换器匹配）的新模型，在准确性和效率方面均显示出显著改进。VisualSparta能够在MSCOCO和Flickr30K数据集上超越之前的最先进可扩展方法。此外，实验结果表明，它在检索速度上也具有明显优势，例如对于包含100万张图像的索引，使用CPU进行检索时，VisualSparta的速度比CPU向量搜索快约391倍，比使用GPU加速的向量搜索快约5.4倍。随着数据集规模的增大，这种速度优势更加明显，因为VisualSparta可以高效地实现为倒排索引。据我们所知，VisualSparta是首个基于变换器的文本到图像检索模型，能够在大规模数据集上实现实时搜索，并且相比之前的最先进方法在准确性上有显著提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供