
摘要
为避免在应用监督式动作识别模型时陷入耗时的标注与重新训练循环,零样本动作识别(Zero-Shot Action Recognition, ZSAR)已成为一个蓬勃发展的研究方向。ZSAR要求模型能够识别训练集中从未出现过的动作,其核心在于建立视觉特征与语义表示之间的桥梁。然而,由于动作本身的复杂性,从源动作域到目标动作域的知识迁移仍面临巨大挑战。以往的ZSAR方法主要通过引入或整合新的动作级特征来缓解源动作与目标动作之间的表示差异。然而,动作级特征粒度较粗,导致所学习的“一对一”映射关系对语义相近的目标动作缺乏鲁棒性。此外,特征的融合或应用通常需要额外的计算开销或人工标注,增加了实际应用的负担。更重要的是,现有方法未充分意识到:不同名称的动作可能共享相同的原子动作组件。这一特性使人类能够通过已学习的原子动作组合,快速理解未曾见过的新动作。受此启发,本文提出Jigsaw网络(JigsawNet),该模型通过无监督方式将复杂动作分解为原子动作的组合,并建立视觉特征与语义表示之间的“组到组”关系映射,以实现更精准的识别。为进一步增强所学“组到组”映射的鲁棒性,本文引入组激励模块(Group Excitation, GE),用于建模样本内部的知识关联;同时设计一致性损失(Consistency Loss),强制模型学习样本之间的共享知识。实验结果表明,JigsawNet在三个主流基准数据集上均取得了当前最优性能,显著超越了现有方法。