7 个月前

卷积神经网络

计算机视觉

Ronghang Hu; Marcus Rohrbach; Trevor Darrell

摘要

本文探讨了一个新颖的问题，即基于自然语言表达对图像进行分割。这与传统的基于预定义语义类别的语义分割不同，例如，“坐在右侧长凳上的两个人”这一短语仅要求分割出坐在右侧长凳上的两个人，而不包括站在其他长凳上或坐在其他长凳上的人。以往适用于此任务的方法要么局限于固定的类别集，要么只能处理矩形区域。为了从自然语言表达中生成像素级的分割结果，我们提出了一种端到端可训练的递归和卷积网络模型，该模型能够联合学习处理视觉和语言信息。在我们的模型中，递归LSTM网络用于将指代表达编码为向量表示，而全卷积网络则用于从图像中提取空间特征图并输出目标对象的空间响应图。我们在一个基准数据集上展示了该模型可以从自然语言表达中生成高质量的分割输出，并且显著优于基线方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

卷积神经网络

计算机视觉

Ronghang Hu; Marcus Rohrbach; Trevor Darrell

摘要

本文探讨了一个新颖的问题，即基于自然语言表达对图像进行分割。这与传统的基于预定义语义类别的语义分割不同，例如，“坐在右侧长凳上的两个人”这一短语仅要求分割出坐在右侧长凳上的两个人，而不包括站在其他长凳上或坐在其他长凳上的人。以往适用于此任务的方法要么局限于固定的类别集，要么只能处理矩形区域。为了从自然语言表达中生成像素级的分割结果，我们提出了一种端到端可训练的递归和卷积网络模型，该模型能够联合学习处理视觉和语言信息。在我们的模型中，递归LSTM网络用于将指代表达编码为向量表示，而全卷积网络则用于从图像中提取空间特征图并输出目标对象的空间响应图。我们在一个基准数据集上展示了该模型可以从自然语言表达中生成高质量的分割输出，并且显著优于基线方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供