
摘要
我们介绍了一种名为SynSE的新颖语法引导生成方法,用于零样本学习(ZSL)。我们的端到端方法在涉及的模态(视觉、语言)内和之间逐步学习更加精细的生成嵌入空间。模态间的约束定义在动作序列嵌入与相应动作描述中词性(PoS)标记词的嵌入之间。我们将SynSE应用于基于骨架的动作序列识别任务。设计选择使得SynSE能够组合泛化,即识别包含训练过程中未遇到词汇的动作序列。此外,我们通过一种基于置信度的门控机制扩展了该方法,以应对更具挑战性的广义零样本学习(GZSL)问题。我们首次在大规模NTU-60和NTU-120骨架动作数据集上展示了多个分割下的零样本骨架动作识别结果。实验结果表明,与强大的基线模型相比,SynSE在NTU-60和NTU-120数据集上的ZSL和GZSL设置中均表现出最先进的性能。代码和预训练模型可在https://github.com/skelemoa/synse-zsl 获取。