13 天前

我了解这些关系:基于双流图卷积网络与知识图谱的零样本动作识别

{Changsheng Xu, Tianzhu Zhang, Junyu Gao}
摘要

近年来,随着动作类别数量的持续增长,零样本动作识别(Zero-Shot Action Recognition, ZSAR)已可通过自动挖掘视频中潜在的概念(如动作、属性)实现。然而,现有大多数方法仅利用这些概念的视觉线索,忽略了外部知识信息,难以建模概念之间的显式关联关系。事实上,人类具备将从熟悉类别中学习到的知识迁移到识别陌生类别的强大能力。为缩小现有方法与人类认知能力之间的知识鸿沟,本文提出一种基于结构化知识图谱的端到端ZSAR框架,能够联合建模动作-属性、动作-动作以及属性-属性之间的多重关系。为有效利用知识图谱,我们设计了一种新颖的双流图卷积网络(Two-Stream Graph Convolutional Network, TS-GCN),包含分类器分支与实例分支。具体而言,分类器分支以所有概念的语义嵌入向量作为输入,生成用于动作类别的分类器;实例分支则将每个视频实例的属性嵌入及其得分映射至属性特征空间。随后,生成的分类器在各视频的属性特征上进行评估,并采用分类损失对整个网络进行优化。此外,引入自注意力模块以建模视频的时序信息。在三个真实世界动作识别基准数据集——Olympic Sports、HMDB51和UCF101上的大量实验结果表明,所提出的框架在零样本动作识别任务中表现出优越的性能。

我了解这些关系:基于双流图卷积网络与知识图谱的零样本动作识别 | 最新论文 | HyperAI超神经