
摘要
本文致力于对视频中出现的对象管状体之间的关系进行分类和检测,将其表示为<主语-谓语-宾语>三元组。现有的研究通常将对象建议框或管状体视为单一实体,并在其后建模它们的关系,而我们提出了一种方法,即在先验阶段对对象管状体对的谓语进行分类和检测。此外,我们还提出了社会织物(Social Fabric):一种编码方式,可以将一对对象管状体表示为交互基元的组合。这些基元是在所有关系上学习得到的,从而形成了一种紧凑的表示方法,能够在视频的所有时间跨度内从共现的对象管状体池中定位和分类关系。该编码使得我们的两阶段网络成为可能。在第一阶段,我们训练社会织物以建议可能相互作用的提案。在第二阶段,我们利用社会织物同时微调并预测管状体的谓语标签。实验结果表明,早期视频关系建模、我们的编码方法以及两阶段架构均具有显著优势,并在两个基准测试中达到了新的最先进水平。我们还展示了如何通过查询基元示例来搜索时空视频关系。代码:https://github.com/shanshuo/Social-Fabric。