7 个月前

计算机视觉

计算机视觉

Scott Reed Zeynep Akata Honglak Lee Bernt Schiele

摘要

最先进的零样本视觉识别方法将学习问题表述为图像和辅助信息的联合嵌入问题。在这些方法中，目前最佳的视觉特征补充是属性：手动编码的向量，用于描述类别之间的共有特性。尽管性能良好，但属性存在局限性：（1）细粒度识别需要相应更多的属性；（2）属性不能提供自然语言接口。我们提出通过从头开始训练神经语言模型来克服这些局限性；即不进行预训练，仅使用单词和字符作为输入。我们提出的模型端到端地训练以对齐图像的细粒度和类别特定内容。自然语言提供了一种灵活且紧凑的方式来编码区分类别的显著视觉方面。通过在原始文本上进行训练，我们的模型也可以在原始文本上进行推理，从而为人类提供了一个熟悉的注释和检索模式。我们的模型在基于文本的零样本图像检索任务中表现出色，并且在Caltech UCSD Birds 200-2011数据集上的零样本分类任务中显著优于基于属性的最先进方法。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

计算机视觉

Scott Reed Zeynep Akata Honglak Lee Bernt Schiele

摘要

最先进的零样本视觉识别方法将学习问题表述为图像和辅助信息的联合嵌入问题。在这些方法中，目前最佳的视觉特征补充是属性：手动编码的向量，用于描述类别之间的共有特性。尽管性能良好，但属性存在局限性：（1）细粒度识别需要相应更多的属性；（2）属性不能提供自然语言接口。我们提出通过从头开始训练神经语言模型来克服这些局限性；即不进行预训练，仅使用单词和字符作为输入。我们提出的模型端到端地训练以对齐图像的细粒度和类别特定内容。自然语言提供了一种灵活且紧凑的方式来编码区分类别的显著视觉方面。通过在原始文本上进行训练，我们的模型也可以在原始文本上进行推理，从而为人类提供了一个熟悉的注释和检索模式。我们的模型在基于文本的零样本图像检索任务中表现出色，并且在Caltech UCSD Birds 200-2011数据集上的零样本分类任务中显著优于基于属性的最先进方法。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供