Command Palette
Search for a command to run...
基于自然语言表达的分割
基于自然语言表达的分割
Ronghang Hu; Marcus Rohrbach; Trevor Darrell
摘要
本文探讨了一个新颖的问题,即基于自然语言表达对图像进行分割。这与传统的基于预定义语义类别的语义分割不同,例如,“坐在右侧长凳上的两个人”这一短语仅要求分割出坐在右侧长凳上的两个人,而不包括站在其他长凳上或坐在其他长凳上的人。以往适用于此任务的方法要么局限于固定的类别集,要么只能处理矩形区域。为了从自然语言表达中生成像素级的分割结果,我们提出了一种端到端可训练的递归和卷积网络模型,该模型能够联合学习处理视觉和语言信息。在我们的模型中,递归LSTM网络用于将指代表达编码为向量表示,而全卷积网络则用于从图像中提取空间特征图并输出目标对象的空间响应图。我们在一个基准数据集上展示了该模型可以从自然语言表达中生成高质量的分割输出,并且显著优于基线方法。