8 个月前

摘要

将图像模型适应到视频领域已成为解决视频识别任务的有效范式。由于图像模型参数量巨大且具有良好的迁移能力，进行全量微调不仅效率低下，甚至有时没有必要。因此，近期的研究重点逐渐转向了参数高效的图像到视频适应方法。然而，这些适应策略在处理视频领域的域差距和时间建模时不可避免地会引入额外的计算成本。本文提出了一种新的适应范式（ZeroI2V），旨在将图像变换器迁移到视频识别任务中（即在推理过程中不对原始模型增加任何额外成本）。为了实现这一目标，我们提出了两个核心设计。首先，为了捕捉视频中的动态变化并降低图像到视频适应的难度，我们利用自注意力机制的灵活性，引入了空间-时间双头注意力（Spatial-Temporal Dual-Headed Attention, STDHA）。该方法能够在不增加任何额外参数和计算的情况下，高效地赋予图像变换器时间建模的能力。其次，为了解决图像和视频之间的域差距问题，我们提出了一种线性适应策略，通过使用轻量级密集布置的线性适配器来完全迁移冻结的图像模型至视频识别任务。得益于这种定制化的线性设计，在训练完成后，所有新添加的适配器都可以通过结构重参数化轻松合并到原始模块中，从而在推理过程中实现零额外成本。大量实验表明，在代表性的全监督和少样本视频识别基准测试中，ZeroI2V 能够达到或超越现有最先进方法的性能，并且在参数和推理效率方面表现出色。

源 PDF