7 个月前

多模态表征

计算机视觉

Kuang-Huei Lee; Xi Chen; Gang Hua; Houdong Hu; Xiaodong He

摘要

本文研究了图像-文本匹配的问题。通过推断物体或其他显著元素（如雪、天空、草坪）与句子中相应词汇之间的潜在语义对齐关系，可以捕捉视觉与语言之间的细粒度互动，使图像-文本匹配更具可解释性。以往的研究要么简单地聚合所有可能的区域-词汇对的相似性，而没有区分重要和次要的词汇或区域；要么采用多步骤注意力机制来捕捉有限数量的语义对齐关系，但这种方法的可解释性较差。在本文中，我们提出了堆叠交叉注意力（Stacked Cross Attention）方法，利用图像区域和句子中的词汇作为上下文，发现完整的潜在对齐关系并推断图像-文本相似度。我们的方法在MS-COCO和Flickr30K数据集上取得了最先进的结果。在Flickr30K数据集中，我们的方法在基于图像查询的文本检索任务上相对优于当前最佳方法22.1%，在基于文本查询的图像检索任务上相对优于当前最佳方法18.2%（均基于Recall@1指标）。在MS-COCO数据集中，我们的方法相对提高了句子检索性能17.8%和图像检索性能16.6%（均基于5K测试集上的Recall@1指标）。代码已公开发布于：https://github.com/kuanghuei/SCAN。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

多模态表征

计算机视觉

Kuang-Huei Lee; Xi Chen; Gang Hua; Houdong Hu; Xiaodong He

摘要

本文研究了图像-文本匹配的问题。通过推断物体或其他显著元素（如雪、天空、草坪）与句子中相应词汇之间的潜在语义对齐关系，可以捕捉视觉与语言之间的细粒度互动，使图像-文本匹配更具可解释性。以往的研究要么简单地聚合所有可能的区域-词汇对的相似性，而没有区分重要和次要的词汇或区域；要么采用多步骤注意力机制来捕捉有限数量的语义对齐关系，但这种方法的可解释性较差。在本文中，我们提出了堆叠交叉注意力（Stacked Cross Attention）方法，利用图像区域和句子中的词汇作为上下文，发现完整的潜在对齐关系并推断图像-文本相似度。我们的方法在MS-COCO和Flickr30K数据集上取得了最先进的结果。在Flickr30K数据集中，我们的方法在基于图像查询的文本检索任务上相对优于当前最佳方法22.1%，在基于文本查询的图像检索任务上相对优于当前最佳方法18.2%（均基于Recall@1指标）。在MS-COCO数据集中，我们的方法相对提高了句子检索性能17.8%和图像检索性能16.6%（均基于5K测试集上的Recall@1指标）。代码已公开发布于：https://github.com/kuanghuei/SCAN。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

堆叠交叉注意力机制用于图像-文本匹配 | 论文 | HyperAI超神经