9 天前
MeMViT:用于高效长时视频识别的记忆增强多尺度视觉Transformer
Chao-Yuan Wu, Yanghao Li, Karttikeya Mangalam, Haoqi Fan, Bo Xiong, Jitendra Malik, Christoph Feichtenhofer

摘要
尽管当前的视频识别系统能够准确解析静态图像帧或短片段,但尚无法在更长的时间范围内进行连贯推理。大多数现有视频架构在处理超过5秒的视频时,便会遭遇计算或内存瓶颈。本文提出一种新策略以克服这一挑战。与大多数现有方法试图一次性处理更多帧不同,我们提出采用在线处理方式,并在每一轮迭代中缓存“记忆”信息。通过这种记忆机制,模型可在建模过程中参考先前的上下文信息,实现长期时序建模,且仅带来微小的计算开销。基于这一思想,我们构建了MeMViT——一种增强记忆的多尺度视觉Transformer(Memory-augmented Multiscale Vision Transformer),其时间支持范围比现有模型延长了30倍,而计算量仅增加4.5%;相比之下,传统方法需增加超过3000%的计算资源才能实现同等效果。在多种任务设置下,MeMViT所提升的时序建模能力均显著提升了识别准确率。该模型在AVA、EPIC-Kitchens-100动作分类以及动作预测等多个基准数据集上均取得了当前最优(state-of-the-art)的性能表现。代码与模型已开源,地址为:https://github.com/facebookresearch/memvit。