
摘要
指代对象检测和指代图像分割是需要结合视觉信息和自然语言理解的重要任务。然而,有证据表明当前的基准数据集存在偏差,且最先进的模型难以对其中间推理过程进行评估。为了解决这些问题并补充在视觉问答领域的类似努力,我们构建了CLEVR-Ref+,一个用于指代表达理解的合成诊断数据集。该数据集中对象的精确位置和属性信息 readily available(易于获取),并且指代表达式可以自动与功能程序关联。合成性质允许通过采样策略控制数据集偏差,而模块化程序则无需人工标注即可提供中间推理的真值。除了在CLEVR-Ref+上评估几种最先进的模型外,我们还提出了IEP-Ref,一种模块网络方法,在我们的数据集上显著优于其他模型。特别是,我们利用IEP-Ref展示了两个有趣且重要的发现:(1) 训练用于将特征图转换为分割掩模的模块可以附加到任何中间模块上,从而逐步揭示整个推理过程;(2) 即使所有训练数据中至少包含一个被指代的对象,IEP-Ref在面对虚假前提的指代表达式时仍能正确预测无前景。据我们所知,这是首次直接且定量地证明神经模块按预期方式工作的证据。