9 天前

MeMViT：用于高效长时视频识别的记忆增强多尺度视觉Transformer

Chao-Yuan Wu, Yanghao Li, Karttikeya Mangalam, Haoqi Fan, Bo Xiong, Jitendra Malik, Christoph Feichtenhofer

摘要

尽管当前的视频识别系统能够准确解析静态图像帧或短片段，但尚无法在更长的时间范围内进行连贯推理。大多数现有视频架构在处理超过5秒的视频时，便会遭遇计算或内存瓶颈。本文提出一种新策略以克服这一挑战。与大多数现有方法试图一次性处理更多帧不同，我们提出采用在线处理方式，并在每一轮迭代中缓存“记忆”信息。通过这种记忆机制，模型可在建模过程中参考先前的上下文信息，实现长期时序建模，且仅带来微小的计算开销。基于这一思想，我们构建了MeMViT——一种增强记忆的多尺度视觉Transformer（Memory-augmented Multiscale Vision Transformer），其时间支持范围比现有模型延长了30倍，而计算量仅增加4.5%；相比之下，传统方法需增加超过3000%的计算资源才能实现同等效果。在多种任务设置下，MeMViT所提升的时序建模能力均显著提升了识别准确率。该模型在AVA、EPIC-Kitchens-100动作分类以及动作预测等多个基准数据集上均取得了当前最优（state-of-the-art）的性能表现。代码与模型已开源，地址为：https://github.com/facebookresearch/memvit。