2 个月前

重新思考基于场景的两阶段识别框架

Wei, Meng ; Chen, Long ; Ji, Wei ; Yue, Xiaoyu ; Chua, Tat-Seng
重新思考基于场景的两阶段识别框架
摘要

基于场景的情况识别(GSR),即在图像中识别显著活动(或动词)类别(例如,购买)并检测所有相应的语义角色(例如,行为者和商品),是实现“类人”事件理解的重要步骤。由于每个动词都与特定的一组语义角色相关联,现有的所有GSR方法都采用了两阶段框架:第一阶段预测动词,第二阶段检测语义角色。然而,这两个阶段都存在明显的不足之处:1) 常用于物体识别的交叉熵(XE)损失在动词分类中表现不足,因为日常活动内部差异大且不同类别之间的相似度高;2) 所有语义角色以自回归的方式进行检测,无法建模不同角色之间的复杂语义关系。为此,我们提出了一种新型的SituFormer模型用于GSR,该模型由粗到精的动词模型(CFVM)和基于Transformer的名词模型(TNM)组成。CFVM是一个两步动词预测模型:首先使用交叉熵损失训练的粗粒度模型提出一组动词候选,然后使用三元组损失训练的细粒度模型通过增强的动词特征(不仅可区分而且具有判别性)重新对这些候选进行排序。TNM是一个基于Transformer的语义角色检测模型,可以并行检测所有角色。得益于Transformer解码器的全局关系建模能力和灵活性,TNM能够充分探索各角色之间的统计依赖关系。在具有挑战性的SWiG基准上的广泛验证表明,SituFormer在各种指标下均取得了显著提升的新最先进性能。代码可在https://github.com/kellyiss/SituFormer获取。