2 个月前

学习细粒度视觉描述的深度表示

Scott Reed; Zeynep Akata; Bernt Schiele; Honglak Lee
学习细粒度视觉描述的深度表示
摘要

最先进的零样本视觉识别方法将学习问题表述为图像和辅助信息的联合嵌入问题。在这些方法中,目前最佳的视觉特征补充是属性:手动编码的向量,用于描述类别之间的共有特性。尽管性能良好,但属性存在局限性:(1)细粒度识别需要相应更多的属性;(2)属性不能提供自然语言接口。我们提出通过从头开始训练神经语言模型来克服这些局限性;即不进行预训练,仅使用单词和字符作为输入。我们提出的模型端到端地训练以对齐图像的细粒度和类别特定内容。自然语言提供了一种灵活且紧凑的方式来编码区分类别的显著视觉方面。通过在原始文本上进行训练,我们的模型也可以在原始文本上进行推理,从而为人类提供了一个熟悉的注释和检索模式。我们的模型在基于文本的零样本图像检索任务中表现出色,并且在Caltech UCSD Birds 200-2011数据集上的零样本分类任务中显著优于基于属性的最先进方法。