12 天前

基于注意力机制的上下文感知推理用于情境识别

{ Wei Lu, Ngai-Man Cheung, Thilini Cooray}
基于注意力机制的上下文感知推理用于情境识别
摘要

情境识别(Situation Recognition, SR)是一项细粒度的动作识别任务,要求模型不仅能够预测图像中的显著动作,还需准确预测该动作所涉及的所有语义角色(semantic roles)的取值。语义角色预测极具挑战性:每个语义角色可能对应极为丰富的潜在匹配项。现有研究主要聚焦于依赖关系建模架构以应对这一难题。受基于查询的视觉推理(如视觉问答,Visual Question Answering)取得成功的启发,我们提出将语义角色预测建模为一个基于查询的视觉推理问题。然而,现有的基于查询的推理方法尚未考虑查询之间的相互依赖性,而这正是情境识别任务中语义角色预测所特有的关键需求。因此,据我们所知,本文首次提出了一套专门用于处理查询间依赖关系的基于查询的视觉推理方法。大量实验结果表明,所提出方法在情境识别任务上取得了卓越性能。此外,通过有效利用查询间的相互依赖性,我们的方法在性能上超越了现有最先进的独立处理各查询的推理模型。项目代码已开源:https://github.com/thilinicooray/context-aware-reasoning-for-sr

基于注意力机制的上下文感知推理用于情境识别 | 最新论文 | HyperAI超神经