
摘要
视觉关系,如“人骑自行车”和“自行车在汽车旁边”,为图像提供了全面的场景理解,并已在连接计算机视觉和自然语言方面展现出巨大的实用性。然而,由于建模主语-谓语-宾语关系三元组的组合复杂性极具挑战性,目前对视觉关系的定位和预测研究甚少。受到知识库中关系表示学习以及卷积对象检测网络最新进展的启发,我们提出了一种用于视觉关系检测的视觉翻译嵌入网络(VTransE)。VTransE 将对象置于一个低维的关系空间中,在该空间中,关系可以被建模为简单的向量平移,即主语 + 谓语 ≈ 宾语。我们设计了一种新的特征提取层,该层以全卷积的方式支持对象-关系知识迁移,并能够在单次前向/后向传递中完成训练和推理。据我们所知,VTransE 是首个端到端的关系检测网络。我们在两个大规模数据集上展示了 VTransE 的有效性:Visual Relationship 和 Visual Genome 数据集。值得注意的是,尽管 VTransE 是一个纯粹的视觉模型,它仍然能够与卢氏基于语言先验的多模态模型相媲美。