2 个月前

重新思考视觉定位中的多样化和区分性提议生成

Zhou Yu; Jun Yu; Chenchao Xiang; Zhou Zhao; Qi Tian; Dacheng Tao
重新思考视觉定位中的多样化和区分性提议生成
摘要

视觉定位的目标是在图像中定位由文本查询短语所指的对象。已提出了多种视觉定位方法,该问题可以模块化为一个通用框架:提议生成、多模态特征表示和提议排序。在这三个模块中,大多数现有方法主要关注后两个模块,而提议生成的重要性通常被忽视。本文重新审视了构成良好提议生成器的属性问题。我们在生成提议时同时引入了多样性和区分性,并因此提出了多样化和区分性提议网络模型(DDPN)。基于DDPN生成的提议,我们提出了一种高性能的视觉定位基线模型,并在四个基准数据集上对其进行了评估。实验结果表明,我们的模型在所有测试数据集上均取得了显著改进(例如,在ReferItGame数据集上提高了18.8%,在Flickr30k Entities数据集上提高了8.2%,分别超过了现有的最先进方法)。

重新思考视觉定位中的多样化和区分性提议生成 | 最新论文 | HyperAI超神经