
摘要
传统的视频动作识别方法通常采用标准的1-of-N多数投票范式,即训练神经网络模型对一组预定义的固定类别进行分类。这种方法受限于固定的类别集合,难以在包含未见概念的新数据集上实现有效的迁移。本文提出一种全新的动作识别视角,强调标签文本的语义信息,而非简单地将标签映射为数值。具体而言,我们将该任务建模为多模态学习框架下的视频-文本匹配问题,通过引入更具语义性的语言监督来增强视频表征能力,从而实现无需额外标注数据或参数调整的零样本动作识别。此外,为应对标签文本资源有限的问题,并充分利用海量网络数据,我们基于上述多模态学习框架提出一种新型范式,命名为“预训练-提示工程-微调”(pre-train, prompt and fine-tune)。该范式首先在大规模网络图像-文本或视频-文本数据上进行预训练,学习强大的通用表征;随后通过提示工程(prompt engineering)将动作识别任务转化为更接近预训练阶段的学习形式;最后在目标数据集上进行端到端微调,以获得优异的性能表现。我们实现了该范式的具体模型——ActionCLIP,该模型不仅具备卓越且灵活的零样本与少样本迁移能力,还在通用动作识别任务上取得了领先性能:在Kinetics-400数据集上,采用ViT-B/16作为主干网络时,取得了83.8%的Top-1准确率。代码已开源,地址为:https://github.com/sallymmx/ActionCLIP.git。