2 个月前

视频-TLDR:用于轻量级视频变压器的无训练令牌合并

Joonmyung Choi; Sanghyeok Lee; Jaewon Chu; Minhyuk Choi; Hyunwoo J. Kim
视频-TLDR:用于轻量级视频变压器的无训练令牌合并
摘要

视频变换器(Video Transformers)凭借其卓越的表达能力和灵活性,已成为各种视频下游任务的主要解决方案。然而,由于整个视频帧中存在大量标记(tokens),这些视频变换器面临着沉重的计算成本,这已成为训练模型的主要障碍。此外,与主要内容无关的标记,例如背景区域,会降低模型的泛化性能。为了解决这些问题,我们提出了一种无需额外训练即可合并背景标记的方法——轻量级视频变换器(vid-TLDR),旨在通过合并背景标记来提高视频变换器的效率。在vid-TLDR中,我们引入了一种新颖的方法,仅使用注意力图来捕捉视频中的显著区域。进一步地,我们提出了基于显著性的标记合并策略,通过丢弃背景标记并增强对象得分来实现这一目标。实验结果表明,vid-TLDR显著降低了视频变换器的计算复杂度,并且在性能上与未使用vid-TLDR的基础模型相比具有竞争力。代码可在https://github.com/mlvlab/vid-TLDR 获取。