17 天前
将视频掩码自编码器扩展至128帧
Nitesh Bharadwaj Gundavarapu, Luke Friedman, Raghav Goyal, Chaitra Hegde, Eirikur Agustsson, Sagar M. Waghmare, Mikhail Sirotenko, Ming-Hsuan Yang, Tobias Weyand, Boqing Gong, Leonid Sigal

摘要
视频理解近年来取得了显著进展,得益于自监督预训练目标的引入,尤其是基于掩码自编码器(Masked Autoencoders, MAE)的设计展现出强大性能。然而,以往多数基于MAE预训练的方法主要聚焦于较短的视频表示(长度为16或32帧),这在很大程度上受限于硬件内存与计算资源的瓶颈——随着视频长度增加,密集的内存密集型自注意力解码机制导致资源消耗急剧上升。一种自然的应对策略是通过在解码阶段对token进行下采样以重建(即解码器掩码)。在本工作中,我们提出了一种高效且具有优先级的token选择策略,使得模型能够在更长的视频序列(128帧)上进行训练,并在性能上优于传统的随机掩码与均匀掩码策略。本方法的核心在于一种自适应解码器掩码机制,该机制能够优先选择最具信息量的token,并以量化后的token作为重建目标。我们的自适应策略依托于一种基于MAGVIT的分词器,该分词器能够联合学习token及其优先级。通过全面的消融实验,我们验证了设计选择的有效性,并观察到所构建的长视频(128帧)编码器在性能上显著优于传统的短视频(32帧)编码器。基于提出的长视频掩码自编码器(Long-Video Masked Autoencoder, LVMAE)策略,我们在Diving48数据集上超越当前最优水平3.9个百分点,在EPIC-Kitchens-100动作分类任务上提升2.5个百分点。值得注意的是,该方法仅依赖于简洁的核心架构与纯视频自监督预训练,无需依赖数百万标注的视频-文本对,也无需使用专用编码器,展现出更强的通用性与实用性。