2 个月前

神经图元:基于全局上下文的场景图解析

Rowan Zellers; Mark Yatskar; Sam Thomson; Yejin Choi
神经图元:基于全局上下文的场景图解析
摘要

我们研究了生成视觉场景的结构化图表示的问题。本工作分析了图中的模体(motifs)的作用:即场景图中经常出现的子结构。我们在Visual Genome数据集中展示了这些重复结构的新定量见解。分析表明,对象标签对关系标签具有很高的预测性,但反之则不然。我们还发现,即使在较大的子图中也存在重复模式:超过50%的图包含涉及至少两个关系的模体。我们的分析激发了一种新的基线方法:给定对象检测结果,预测训练集中具有相同标签的对象对之间最频繁的关系。该基线方法在不同评估设置下相对于先前的最先进方法平均提高了3.6%。随后,我们引入了堆叠模体网络(Stacked Motif Networks),这是一种旨在捕捉场景图中高阶模体的新架构,进一步在我们的强基线方法上实现了平均7.1%的相对提升。我们的代码可在github.com/rowanz/neural-motifs获取。