6 个月前

计算机视觉

计算机视觉

Leonid Sigal Mohammed Suhail

摘要

理解图像不仅限于识别显著动作，还涉及对场景上下文、物体及其在所捕捉事件中所扮演角色的推理。近年来，情境识别（situation recognition）被提出作为一项新任务，旨在联合推理动作（动词）以及以动作框架（action frames）形式呈现的一组语义角色与实体（名词）配对。将一个图像标注为一个动作框架，需要根据图像内容为各个角色分配相应的名词值。该任务面临诸多内在挑战，包括输出角色分配之间的丰富条件结构依赖关系，以及整体语义空间的稀疏性问题。本文提出一种新型的混合核注意力图神经网络（mixture-kernel attention graph neural network, GNN）架构，以应对上述挑战。所提出的GNN在训练与推理过程中能够实现动态图结构，其核心是基于图注意力机制，并支持角色对之间的上下文感知交互。通过在imSitu基准数据集上的实验，我们验证了所提模型及其设计选择的有效性，实验结果表明，该方法在准确率上相较当前最先进方法最高提升了10%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Leonid Sigal Mohammed Suhail

摘要

理解图像不仅限于识别显著动作，还涉及对场景上下文、物体及其在所捕捉事件中所扮演角色的推理。近年来，情境识别（situation recognition）被提出作为一项新任务，旨在联合推理动作（动词）以及以动作框架（action frames）形式呈现的一组语义角色与实体（名词）配对。将一个图像标注为一个动作框架，需要根据图像内容为各个角色分配相应的名词值。该任务面临诸多内在挑战，包括输出角色分配之间的丰富条件结构依赖关系，以及整体语义空间的稀疏性问题。本文提出一种新型的混合核注意力图神经网络（mixture-kernel attention graph neural network, GNN）架构，以应对上述挑战。所提出的GNN在训练与推理过程中能够实现动态图结构，其核心是基于图注意力机制，并支持角色对之间的上下文感知交互。通过在imSitu基准数据集上的实验，我们验证了所提模型及其设计选择的有效性，实验结果表明，该方法在准确率上相较当前最先进方法最高提升了10%。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

混合核图注意力网络用于情境识别 | 论文 | HyperAI超神经