7 个月前

摘要

视觉定位的目标是在图像中定位由文本查询短语所指的对象。已提出了多种视觉定位方法，该问题可以模块化为一个通用框架：提议生成、多模态特征表示和提议排序。在这三个模块中，大多数现有方法主要关注后两个模块，而提议生成的重要性通常被忽视。本文重新审视了构成良好提议生成器的属性问题。我们在生成提议时同时引入了多样性和区分性，并因此提出了多样化和区分性提议网络模型（DDPN）。基于DDPN生成的提议，我们提出了一种高性能的视觉定位基线模型，并在四个基准数据集上对其进行了评估。实验结果表明，我们的模型在所有测试数据集上均取得了显著改进（例如，在ReferItGame数据集上提高了18.8%，在Flickr30k Entities数据集上提高了8.2%，分别超过了现有的最先进方法）。

源 PDF