6 个月前

计算机视觉

计算机视觉

Chen Wei Haoqi Fan Saining Xie Chao-Yuan Wu Alan Yuille Christoph Feichtenhofer

摘要

我们提出了一种用于视频模型自监督预训练的掩码特征预测方法（Masked Feature Prediction, MaskFeat）。该方法首先随机掩码输入序列中的一部分，随后预测被掩码区域的特征。我们系统研究了五种不同类型的特征，发现手工设计的梯度方向直方图（Histograms of Oriented Gradients, HOG）在性能与效率方面均表现尤为出色。我们观察到，HOG中局部对比度归一化（local contrast normalization）对于取得良好结果至关重要，这一发现与早期将HOG应用于视觉识别的研究结果一致。所提出的MaskFeat方法能够有效学习丰富的视觉知识，并驱动大规模基于Transformer的模型。在未使用额外模型参数或监督信号的前提下，仅在无标签视频上进行预训练，MaskFeat在Kinetics-400上取得了86.7%的准确率（MViT-L），在Kinetics-600上达到88.3%，在Kinetics-700上达到80.4%，在AVA数据集上获得39.8 mAP，以及在SSv2数据集上达到75.0%的准确率，均创下新纪录。此外，MaskFeat还可推广至图像输入，可将其视为单帧视频，从而在ImageNet数据集上取得了具有竞争力的性能表现。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Chen Wei Haoqi Fan Saining Xie Chao-Yuan Wu Alan Yuille Christoph Feichtenhofer

摘要

我们提出了一种用于视频模型自监督预训练的掩码特征预测方法（Masked Feature Prediction, MaskFeat）。该方法首先随机掩码输入序列中的一部分，随后预测被掩码区域的特征。我们系统研究了五种不同类型的特征，发现手工设计的梯度方向直方图（Histograms of Oriented Gradients, HOG）在性能与效率方面均表现尤为出色。我们观察到，HOG中局部对比度归一化（local contrast normalization）对于取得良好结果至关重要，这一发现与早期将HOG应用于视觉识别的研究结果一致。所提出的MaskFeat方法能够有效学习丰富的视觉知识，并驱动大规模基于Transformer的模型。在未使用额外模型参数或监督信号的前提下，仅在无标签视频上进行预训练，MaskFeat在Kinetics-400上取得了86.7%的准确率（MViT-L），在Kinetics-600上达到88.3%，在Kinetics-700上达到80.4%，在AVA数据集上获得39.8 mAP，以及在SSv2数据集上达到75.0%的准确率，均创下新纪录。此外，MaskFeat还可推广至图像输入，可将其视为单帧视频，从而在ImageNet数据集上取得了具有竞争力的性能表现。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供