
摘要
我们提出了一种基于跨模态Transformer的框架,该框架联合编码视频数据与文本标签,实现零样本动作识别(Zero-Shot Action Recognition, ZSAR)。我们的模型采用了一种概念上全新的端到端学习流程,将视觉表征与视觉-语义关联联合学习。该模型设计为视觉与语义表征在共享知识空间中协同学习提供了自然机制,从而促使所学的视觉嵌入具有更强的判别性与更高的语义一致性。在零样本推理阶段,我们设计了一种简洁的语义迁移策略,通过引入已见类别与未见类别之间的语义相关性信息,构建未见类别的视觉原型。由此,视觉结构中所蕴含的判别性特征得以有效保留并加以利用,从而缓解了零样本识别中常见的信息丢失、语义鸿沟以及“中心性问题”(hubness problem)等挑战。在不依赖额外数据预训练的严格零样本设置下,实验结果表明,我们的模型在UCF101、HMDB51和ActivityNet等基准数据集上均显著优于现有最先进方法,取得了具有竞争力的Top-1准确率。相关代码将公开发布。