HyperAIHyperAI

Command Palette

Search for a command to run...

重新思考视觉定位中的多样化和区分性提议生成

Zhou Yu Jun Yu* Chenchao Xiang Zhou Zhao Qi Tian Dacheng Tao

摘要

视觉定位的目标是在图像中定位由文本查询短语所指的对象。已提出了多种视觉定位方法,该问题可以模块化为一个通用框架:提议生成、多模态特征表示和提议排序。在这三个模块中,大多数现有方法主要关注后两个模块,而提议生成的重要性通常被忽视。本文重新审视了构成良好提议生成器的属性问题。我们在生成提议时同时引入了多样性和区分性,并因此提出了多样化和区分性提议网络模型(DDPN)。基于DDPN生成的提议,我们提出了一种高性能的视觉定位基线模型,并在四个基准数据集上对其进行了评估。实验结果表明,我们的模型在所有测试数据集上均取得了显著改进(例如,在ReferItGame数据集上提高了18.8%,在Flickr30k Entities数据集上提高了8.2%,分别超过了现有的最先进方法)。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
重新思考视觉定位中的多样化和区分性提议生成 | 论文 | HyperAI超神经