17 天前

Side4Video:用于内存高效图像到视频迁移学习的时空侧网络

Huanjin Yao, Wenhao Wu, Zhiheng Li
Side4Video:用于内存高效图像到视频迁移学习的时空侧网络
摘要

大规模预训练视觉模型在计算机视觉领域取得了令人瞩目的成就。然而,针对下游任务(尤其是视频理解任务)对大型模型进行全量微调,往往面临难以承受的计算开销。近期研究开始聚焦于高效图像到视频的迁移学习。然而,现有的高效微调方法在训练过程中的内存使用效率方面仍缺乏关注,且对将更大规模模型迁移至视频领域的探索尚不充分。本文提出一种新型的时空侧网络(Spatial-Temporal Side Network),用于实现大尺寸图像模型向视频理解任务的高效微调,命名为 Side4Video。具体而言,我们设计了一种轻量级的时空侧网络,与冻结的预训练视觉模型并联连接。该结构避免了对庞大预训练模型进行反向传播,同时充分利用原始图像模型中多层级的空间特征。所提出的极低内存占用架构,相较以往基于适配器(adapter-based)的方法,可减少高达75%的显存使用。得益于这一优势,我们成功将一个超大规模的 ViT-E 模型(44亿参数)迁移至视频理解任务,其规模是 ViT-L(3.04亿参数)的14倍。在多种单模态与跨模态视频数据集上,我们的方法均取得了显著性能表现,涵盖动作识别与文本-视频检索等任务。具体而言,在 Something-Something V1 和 V2 数据集上分别达到 67.3% 和 74.6% 的准确率,在 Kinetics-400 上达到 88.6%,在 MSR-VTT、MSVD 和 VATEX 上分别取得 52.3%、56.1% 和 68.8% 的优异成绩。我们已将代码开源,地址为:https://github.com/HJYao00/Side4Video。