12 天前

DeViSE:一种深度视觉-语义嵌入模型

{Marc'Aurelio Ranzato, Jeff Dean, Samy Bengio, Jon Shlens, Greg S. Corrado, Andrea Frome, Tomas Mikolov}
DeViSE:一种深度视觉-语义嵌入模型
摘要

现代视觉识别系统在扩展至大量物体类别时往往面临能力瓶颈。这一局限性部分源于随着物体类别数量的增加,获取足够标注图像作为训练数据的难度显著上升。一种可行的解决方案是利用其他数据源(如文本数据)来训练视觉模型,并对其预测结果进行约束。本文提出了一种新型的深度视觉-语义嵌入模型,该模型通过结合标注图像数据与从未标注文本中提取的语义信息,实现对视觉物体的识别。实验表明,该模型在1000类ImageNet物体识别任务上达到了当前最先进的性能水平,同时产生的错误更具语义合理性;此外,我们还证明,借助语义信息,模型能够对训练过程中未见过的数万个图像标签进行预测。在零样本(zero-shot)预测场景下,语义知识可使预测性能提升高达65%,在数千个模型从未见过的新标签上,最高命中率可达10%。

DeViSE:一种深度视觉-语义嵌入模型 | 最新论文 | HyperAI超神经