8 个月前

摘要

广义零样本骨架动作识别（GZSSAR）是计算机视觉领域的一个新挑战问题，它要求模型在没有任何训练样本的情况下识别动作。以往的研究仅利用动词短语的动作标签作为语义原型来学习从骨架动作到共享语义空间的映射。然而，动作标签的有限语义信息限制了骨架特征对未见过的动作的泛化能力。为了解决这一困境，我们提出了一种多语义融合（MSF）模型以提高GZSSAR的性能，该模型收集了两类类级别的文本描述（即动作描述和运动描述），作为辅助语义信息，增强可泛化的骨架特征的学习效果。具体而言，一个预训练的语言编码器将动作描述、运动描述和原始类别标签作为输入，以获取每个动作类别的丰富语义特征；而骨架编码器则用于提取骨架特征。随后，基于变分自编码器（VAE）的生成模块被用来学习骨架特征与语义特征之间的跨模态对齐。最后，构建了一个分类模块来识别输入样本的动作类别，在GZSSAR中采用了一个已见-未见分类门来预测样本是否来自已见过的动作类别。与先前模型相比的优越性能验证了所提出的MSF模型在GZSSAR上的有效性。

源 PDF 查看代码