
摘要
人类仅需极少样本即可轻松识别动作,而现有的视频识别模型仍严重依赖大规模标注数据。这一现象激发了学术界对少样本视频动作识别的日益关注,其目标是在仅有极少量标注样本的情况下学习新动作。本文提出一种基于深度引导的自适应元融合网络(Adaptive Meta-Fusion Network),简称AMeFu-Net,用于少样本视频动作识别。具体而言,本文从三个方面解决少样本识别问题:首先,通过引入深度信息作为场景的载体,缓解数据极度稀缺的问题,为模型提供额外的视觉线索;其次,利用我们提出的时序异步增强机制,从多个非严格对齐的深度视频片段中采样,并将其与原始RGB片段的特征进行融合,实现在特征层面生成新的样本实例;第三,提出一种新颖的深度引导自适应实例归一化(Depth Guided Adaptive Instance Normalization, DGAdaIN)融合模块,高效地融合双流模态信息。此外,为更真实地模拟少样本识别过程,模型采用元学习方式进行训练。在多个动作识别基准数据集上的大量实验结果表明,所提方法具有显著的有效性。