6 个月前

计算机视觉

Wele Gedara Chaminda Bandara Naman Patel Ali Gholami Mehdi Nikkhah Motilal Agrawal Vishal M. Patel

摘要

掩码自编码器（Masked Autoencoders, MAEs）通过从可见数据的标记（tokens）中重建被掩码的输入数据，学习图像、文本、音频、视频等多种模态的可泛化表征。当前针对视频的MAE方法通常采用随机的块（patch）、管状（tube）或帧（frame）级掩码策略来选择这些标记。本文提出AdaMAE，一种面向MAEs的可端到端训练的自适应掩码策略。该策略通过一个辅助采样网络，基于语义上下文自适应地选择可见标记。该网络对时空块（spatiotemporal-patch）标记估计一个类别分布，并依据强化学习中的策略梯度算法，对那些会增加预期重建误差的标记进行奖励，从而将其选为可见标记。实验表明，AdaMAE能够从时空信息丰富的区域采样更多标记，从而实现高达95%的标记掩码率，显著降低内存占用并加速预训练过程。我们在Something-Something v2（SSv2）数据集上进行了消融实验，验证了该自适应采样策略的有效性，并在采用ViT-Base骨干网络、经过800个预训练周期的情况下，在SSv2和Kinetics-400动作分类数据集上分别取得了70.0%和81.7%的Top-1准确率，达到当前最优水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Wele Gedara Chaminda Bandara Naman Patel Ali Gholami Mehdi Nikkhah Motilal Agrawal Vishal M. Patel

摘要

掩码自编码器（Masked Autoencoders, MAEs）通过从可见数据的标记（tokens）中重建被掩码的输入数据，学习图像、文本、音频、视频等多种模态的可泛化表征。当前针对视频的MAE方法通常采用随机的块（patch）、管状（tube）或帧（frame）级掩码策略来选择这些标记。本文提出AdaMAE，一种面向MAEs的可端到端训练的自适应掩码策略。该策略通过一个辅助采样网络，基于语义上下文自适应地选择可见标记。该网络对时空块（spatiotemporal-patch）标记估计一个类别分布，并依据强化学习中的策略梯度算法，对那些会增加预期重建误差的标记进行奖励，从而将其选为可见标记。实验表明，AdaMAE能够从时空信息丰富的区域采样更多标记，从而实现高达95%的标记掩码率，显著降低内存占用并加速预训练过程。我们在Something-Something v2（SSv2）数据集上进行了消融实验，验证了该自适应采样策略的有效性，并在采用ViT-Base骨干网络、经过800个预训练周期的情况下，在SSv2和Kinetics-400动作分类数据集上分别取得了70.0%和81.7%的Top-1准确率，达到当前最优水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供