4 个月前
AM Flow: 动作识别中用于时间处理的适配器
Agrawal, Tanay ; Ali, Abid ; Dantcheva, Antitza ; Bremond, Francois

摘要
深度学习模型,特别是图像模型,最近在泛化能力和鲁棒性方面取得了显著进展。在本研究中,我们提出利用这些进展来改进视频分类领域。视频基础模型面临需要大量预训练和较长训练时间的问题。为了解决这些问题,我们提出了“注意力图(AM)流”方法,用于识别每个输入视频帧中与运动相关的像素。在此背景下,我们根据摄像机运动的不同提出了两种计算AM流的方法。AM流允许空间处理和时间处理的分离,同时在结果上优于联合时空处理(如视频模型)。适配器是参数高效迁移学习中的一种流行技术,它有助于将AM流融入预训练的图像模型中,从而减轻了完全微调的需求。我们通过在适配器中加入时间处理单元将其扩展为“时间处理适配器”。我们的工作实现了更快的收敛速度,因此减少了所需的训练轮数。此外,我们赋予图像模型在流行的动作识别数据集上达到最先进水平的能力。这不仅缩短了训练时间,还简化了预训练过程。我们在Kinetics-400、Something-Something v2和Toyota Smarthome数据集上进行了实验,展示了最先进或相当的结果。