
摘要
受传统图像分割分组技术的启发,我们提出了其深度神经网络(DNN)对应方法,以应对指代性图像分割任务。所提出的方法基于卷积-循环神经网络(ConvRNN),通过迭代方式进行自下而上的分割线索的自上而下处理。给定一个自然语言指代表达,该方法学习预测其与每个像素的相关性,并生成一个“透视文本嵌入像素级”(See-through-Text Embedding Pixelwise, STEP)热力图。该热力图通过学习到的视觉-文本联合嵌入,揭示了像素级别的分割线索。ConvRNN 通过将 STEP 热力图转化为更精细化的版本,实现自上而下的逼近;这种优化效果得益于使用真实标签的分类损失进行网络训练。在获得精细化热力图后,我们通过重新评估指代表达的注意力分布来更新其文本表示,并据此计算新的 STEP 热力图,作为 ConvRNN 的下一轮输入。通过这种协同学习机制的持续增强,该框架能够逐步且同步地生成理想的指代性分割结果以及合理分布的指代句注意力权重。该方法具有通用性,不依赖于其他 DNN 模型的物体检测结果,同时在所有四个实验数据集上均取得了当前最优的性能表现。