6ヶ月前

ビデオ理解

コンピュータビジョン

コンピュータビジョン

Chen Wei Haoqi Fan Saining Xie Chao-Yuan Wu Alan Yuille Christoph Feichtenhofer

概要

ビデオモデルの自己教師付き事前学習のため、マスク特徴予測（Masked Feature Prediction, MaskFeat）を提案する。本手法は、入力シーケンスの一部をランダムにマスクし、そのマスク領域の特徴を予測するアプローチを採用する。5種類の異なる特徴量を検討した結果、手作業で設計された特徴記述子である方向勾配ヒストグラム（Histograms of Oriented Gradients, HOG）が、性能と効率の両面で特に優れた結果を示した。また、HOGにおける局所コントラスト正規化が良好な結果を得るために不可欠であることを観察した。これは、視覚認識にHOGを用いた従来の研究と整合する結果である。本手法は豊富な視覚知識を学習可能であり、大規模なTransformerベースのモデルの学習を促進する。追加のモデルパラメータや教師信号を用いずに、ラベルなし動画で事前学習したMaskFeatは、Kinetics-400でMViT-Lを用いて86.7%、Kinetics-600で88.3%、Kinetics-700で80.4%、AVAでは39.8 mAP、SSv2では75.0%という、これまでにない高い性能を達成した。さらに、MaskFeatは画像入力にも一般化可能であり、単一フレームの動画と見なせるため、ImageNetにおいても競争力ある結果を獲得した。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

ビデオ理解

コンピュータビジョン

コンピュータビジョン

Chen Wei Haoqi Fan Saining Xie Chao-Yuan Wu Alan Yuille Christoph Feichtenhofer

概要

ビデオモデルの自己教師付き事前学習のため、マスク特徴予測（Masked Feature Prediction, MaskFeat）を提案する。本手法は、入力シーケンスの一部をランダムにマスクし、そのマスク領域の特徴を予測するアプローチを採用する。5種類の異なる特徴量を検討した結果、手作業で設計された特徴記述子である方向勾配ヒストグラム（Histograms of Oriented Gradients, HOG）が、性能と効率の両面で特に優れた結果を示した。また、HOGにおける局所コントラスト正規化が良好な結果を得るために不可欠であることを観察した。これは、視覚認識にHOGを用いた従来の研究と整合する結果である。本手法は豊富な視覚知識を学習可能であり、大規模なTransformerベースのモデルの学習を促進する。追加のモデルパラメータや教師信号を用いずに、ラベルなし動画で事前学習したMaskFeatは、Kinetics-400でMViT-Lを用いて86.7%、Kinetics-600で88.3%、Kinetics-700で80.4%、AVAでは39.8 mAP、SSv2では75.0%という、これまでにない高い性能を達成した。さらに、MaskFeatは画像入力にも一般化可能であり、単一フレームの動画と見なせるため、ImageNetにおいても競争力ある結果を獲得した。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています