8 个月前

计算机视觉

Sunil Hwang Jaehong Yoon Youngwan Lee Sung Ju Hwang

摘要

掩码视频自动编码器（MVA）方法通过显著超越先前的视频表征学习方法展示了其潜力。然而，由于随机掩码策略，它们在预测无信息量的令牌/帧时浪费了大量计算资源和内存（例如，超过16个节点使用128块NVIDIA A100 GPU）。为了解决这一问题，我们利用视频中各补丁之间信息密度不均的特点，提出了一种高效的方法——EVEREST，该方法在预训练和微调过程中都能识别出包含丰富运动特征的令牌并丢弃无信息量的令牌。此外，我们还提出了一种信息密集型帧选择策略，使模型能够在最小冗余的情况下专注于信息量大且具有因果关系的帧。我们的方法显著降低了MVA的计算和内存需求，使得仅使用一台配备8块GPU的机器就能进行预训练和微调，并在多个基准测试和未整理的Ego4D数据集上取得了与计算和内存消耗较大的基线方法相当的性能。我们希望这项工作能够降低进一步研究视频理解领域的门槛。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

Sunil Hwang Jaehong Yoon Youngwan Lee Sung Ju Hwang

摘要

掩码视频自动编码器（MVA）方法通过显著超越先前的视频表征学习方法展示了其潜力。然而，由于随机掩码策略，它们在预测无信息量的令牌/帧时浪费了大量计算资源和内存（例如，超过16个节点使用128块NVIDIA A100 GPU）。为了解决这一问题，我们利用视频中各补丁之间信息密度不均的特点，提出了一种高效的方法——EVEREST，该方法在预训练和微调过程中都能识别出包含丰富运动特征的令牌并丢弃无信息量的令牌。此外，我们还提出了一种信息密集型帧选择策略，使模型能够在最小冗余的情况下专注于信息量大且具有因果关系的帧。我们的方法显著降低了MVA的计算和内存需求，使得仅使用一台配备8块GPU的机器就能进行预训练和微调，并在多个基准测试和未整理的Ego4D数据集上取得了与计算和内存消耗较大的基线方法相当的性能。我们希望这项工作能够降低进一步研究视频理解领域的门槛。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供