HyperAIHyperAI

Command Palette

Search for a command to run...

基于图像重建的文本短语定位

Anna Rohrbach; Marcus Rohrbach; Ronghang Hu; Trevor Darrell; Bernt Schiele

摘要

在视觉内容中定位(即接地)任意的自由形式文本短语是一个具有许多人类-计算机交互和图像-文本引用解析应用的挑战性问题。由于很少有数据集提供短语的真实空间定位,因此从无监督或少量监督的数据中学习变得非常必要。我们提出了一种新颖的方法,该方法通过注意力机制重建给定的短语来学习接地,这种注意力机制可以是隐式的或直接优化的。在训练过程中,我们的方法首先使用递归网络语言模型对短语进行编码,然后学习关注相关的图像区域以重建输入短语。在测试时,评估正确的注意力,即接地效果。如果存在接地监督信息,则可以通过注意力机制上的损失函数直接应用。我们在Flickr 30k Entities和ReferItGame数据集上展示了我们方法的有效性,这些数据集包含不同程度的监督信息,从无监督到部分监督再到完全监督。我们的监督变体在这两个数据集上均大幅超越了现有最佳方法。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供