6 个月前

摘要

对比语言-图像预训练（Contrastive Language-Image Pretraining, CLIP）在多种图像任务中展现出卓越性能。然而，如何有效引入时序建模以拓展CLIP在视频理解任务中的应用，仍是当前亟待解决的关键问题。现有的分解式或联合空间-时序建模方法在效率与性能之间往往面临权衡。尽管当前文献中普遍采用“直通管状”（straight-through tube）结构来建模时序信息，我们发现，仅通过简单的帧对齐即可捕捉到足够的语义本质，而无需依赖复杂的时序注意力机制。为此，本文提出一种新颖的隐式可学习对齐（Implicit Learnable Alignment, ILA）方法，在显著降低时序建模开销的同时，实现了极为出色的性能表现。具体而言，针对一对视频帧，ILA在每帧中预测一个交互点（interactive point），该点作为蕴含丰富互信息的区域。通过增强交互点周围的特征，实现两帧之间的隐式对齐。随后，对齐后的特征被聚合为单一的token，并用于后续的空间自注意力计算。该方法有效避免了视频任务中昂贵或性能不足的时序自注意力机制。在多个基准数据集上的大量实验表明，所提出的ILA模块具有显著的优越性与良好的通用性。特别地，在Kinetics-400数据集上，ILA在仅消耗远低于Swin-L和ViViT-H的浮点运算量（FLOPs）的前提下，实现了88.7%的Top-1准确率。相关代码已开源，地址为：https://github.com/Francis-Rings/ILA。

源 PDF