基于多样遮挡的一次性骨骼动作识别深入研究

遮挡是现实世界中普遍存在的干扰因素,持续影响着各类感知任务。对于稀疏表示形式(如人体骨骼序列)而言,即使仅有少数关键点被遮挡,也可能严重破坏其几何结构与时间连续性,从而显著影响识别结果。然而,当前针对骨骼序列的数据稀缺性动作识别研究(如零样本动作识别)尽管面临频繁发生的遮挡问题,却并未显式考虑这一关键因素。本文首次系统性地针对基于骨骼的零样本动作识别(Skeleton-based One-shot Action Recognition, SOAR)中的身体遮挡问题展开研究。我们重点考察两种遮挡类型:1)随机遮挡;2)由日常物体引起的更真实的遮挡。后者通过将现有的IKEA 3D家具模型以不同几何参数投影到3D骨骼的相机坐标系中生成,从而模拟真实场景中物体遮挡人体的复杂情况。基于所提出的处理流程,我们对三个主流动作识别数据集的骨骼序列进行了部分遮挡的混合处理,首次构建了面向部分遮挡姿态的SOAR基准测试平台。本基准的另一关键特性在于其引入了更具现实意义的日常物体遮挡,这在以往基于3D骨骼的标准识别任务中尚属首次——此前的研究通常仅考虑随机缺失关节点的情形。我们在此新任务背景下重新评估了现有SOAR最先进方法的性能,并进一步提出Trans4SOAR:一种基于Transformer架构的新模型。该模型通过三路数据流输入与混合注意力融合机制,有效缓解遮挡带来的负面影响。实验结果表明,随着骨骼序列缺失程度增加,各类模型的识别准确率均出现明显下降,但Trans4SOAR表现出更强的鲁棒性,在所有数据集上均优于现有架构。值得注意的是,尽管本文聚焦于遮挡场景,Trans4SOAR在标准SOAR(无遮挡)任务中同样取得了当前最优性能,在NTU-120数据集上超越已有最佳方法2.85%的准确率,展现出卓越的泛化能力。