指代分割 Referring Image Segmentation

指代图像分割 (Referring Image Segmentation,简称 RIS,又叫指代分割) 旨在对自然语言表达所指代的目标对象进行分割。然而,以前的方法依赖于一个强有力的假设,即一个句子必须描述图像中的一个目标,而在现实应用中通常情况并非如此。因此,当表达式不引用任何对象或引用多个对象时,此类方法会失败。

指代图像分割的目的是通过一个自然的语言表达来分割指代物。由于文本和图像之间的不同数据属性,网络很难很好地对齐文本和像素级的特征。