摘要
我们介绍了基于场景识别(Grounded Situation Recognition,简称GSR)的任务,该任务需要生成图像的结构化语义摘要,描述主要内容活动、参与该活动的实体及其角色(例如,行动者、工具),以及实体的边界框定位。GSR提出了重要的技术挑战:识别语义显著性、对大量且多样的实体进行分类和定位、克服语义稀疏性以及消除角色歧义。此外,与图像描述不同的是,GSR的评估较为直接。为了研究这一新任务,我们创建了带有边界框定位的情景数据集(Situations With Groundings,简称SWiG),该数据集在imsitu数据集中的11,538个实体类别上增加了278,336个边界框定位。我们提出了一种联合情景定位器模型,并发现通过端到端训练联合预测情景和定位明显优于独立训练,在整个定位度量套件中相对增益介于8%至32%之间。最后,我们展示了由我们的模型所支持的三个令人兴奋的未来方向的初步成果:条件查询、视觉链路和基于场景感知的图像检索。代码和数据可在https://prior.allenai.org/projects/gsr获取。