2 个月前

DenseCap:用于密集标注的全卷积定位网络

Justin Johnson; Andrej Karpathy; Li Fei-Fei
DenseCap:用于密集标注的全卷积定位网络
摘要

我们介绍了密集标注任务,该任务要求计算机视觉系统不仅要在图像中定位显著区域,还要用自然语言描述这些区域。当描述由单个词汇组成时,密集标注任务可以看作是对象检测的泛化;而当一个预测区域覆盖整个图像时,则可以视为图像标注的扩展。为了同时解决定位和描述任务,我们提出了一种全卷积定位网络(Fully Convolutional Localization Network, FCLN)架构,该架构通过一次高效的前向传递即可处理图像,无需外部区域建议,并且可以通过单一优化过程进行端到端训练。该架构由卷积网络、新颖的密集定位层以及生成标签序列的循环神经网络语言模型组成。我们在包含94,000张图像和4,100,000个区域标注的Visual Genome数据集上评估了我们的网络,在生成和检索设置下均观察到了相对于当前最先进方法基线的速度和准确性提升。