
摘要
情境识别是指利用活动动词和参与者及物体所扮演的语义角色,生成图像中发生事件的结构化摘要。在这一任务中,相同的活动动词可以描述多种不同的情境,而同一类参与者或物体也可以根据图像中描绘的情境扮演多种不同的语义角色。因此,情境识别模型需要理解图像的上下文以及语义角色的视觉-语言意义。为此,我们利用了CLIP基础模型,该模型通过语言描述学习了图像的上下文。我们展示了通过使用CLIP的图像和文本嵌入特征,更深更宽的多层感知机(MLP)块在情境识别任务中取得了显著的结果,并且由于CLIP封装的外部隐式视觉-语言知识以及现代MLP块设计的强大表达能力,其性能甚至超过了基于Transformer的最新模型CoFormer。受此启发,我们设计了一种基于交叉注意力机制的Transformer,利用CLIP视觉标记来建模文本角色与视觉实体之间的关系。我们的基于交叉注意力机制的Transformer称为ClipSitu XTF,在使用imSitu数据集进行评估时,其在语义角色标注(值)任务中的顶级准确率比现有最先进方法高出14.1%的大优势。{同样地,我们的ClipSitu XTF在情境定位性能方面也达到了最先进水平。} 我们将公开发布代码。