16 天前

基于超图的Transformer用于骨架动作识别

Yuxuan Zhou, Zhi-Qi Cheng, Chao Li, Yanwen Fang, Yifeng Geng, Xuansong Xie, Margret Keuper
基于超图的Transformer用于骨架动作识别
摘要

基于骨架的动作识别旨在通过人体关节点坐标及其骨骼连接关系来识别人类动作。通过将关节点定义为图的顶点、其自然连接关系定义为边,先前的研究成功采用图卷积网络(GCNs)建模关节点的共现关系,并取得了优异的性能。然而,近期研究发现GCN存在一个局限性:训练完成后图结构固定不变。为缓解这一限制,自注意力(Self-Attention, SA)机制被引入,使GCN的拓扑结构能够随输入动态调整,从而催生了当前性能领先的混合模型。与此同时,也有研究尝试直接使用纯Transformer架构,但由于缺乏结构先验信息,其性能仍落后于最先进的基于GCN的方法。与这些混合模型不同,本文提出一种更为优雅的解决方案,通过图距离嵌入(graph distance embedding)将骨骼连接结构自然地融入Transformer框架。该嵌入方法在训练过程中始终保留骨骼结构信息,而传统GCN仅在初始化阶段利用结构信息。更重要的是,本文揭示了图模型普遍存在的一个根本性问题:成对聚合机制本质上忽略了人体关节点之间的高阶运动学依赖关系。为弥补这一缺陷,本文提出一种新型自注意力机制——超图自注意力(Hypergraph Self-Attention, HyperSA),能够显式建模模型内部的高阶内在关联。基于此机制,我们构建了名为Hyperformer的新模型。在NTU RGB+D、NTU RGB+D 120以及Northwestern-UCLA等多个标准数据集上,Hyperformer在准确率与计算效率方面均超越了当前最先进的图模型,展现出显著优势。