8ヶ月前

概要

大規模データセットでの事前学習が、比較的小規模なデータセットで優れた性能を達成するために一般的に必要とされています。本論文では、ビデオマスク付き自己符号化器（VideoMAE）が自己監督型ビデオ事前学習（SSVP）においてデータ効率の高い学習者であることを示します。最近のImageMAEに着想を得て、非常に高いマスキング比率を持つカスタマイズされたビデオチューブマスキングを提案します。この単純な設計により、ビデオ再構築はより困難な自己監督タスクとなり、この事前学習プロセス中により効果的なビデオ表現を抽出することを促進します。SSVPに関する3つの重要な知見を得ました：(1) 極めて高いマスキング比率（つまり90%から95%）でも、VideoMAEは依然として良好な性能を発揮します。時間的に冗長なビデオコンテンツが画像よりも高いマスキング比率を可能にしています。(2) 任意の追加データを使用せずに、VideoMAEは非常に小規模なデータセット（つまり約3,000〜4,000件のビデオ）で印象的な結果を達成します。(3) SSVPにおいては、データの質が量よりも重要であることが示されました。事前学習と目標データセット間のドメインシフトは重要な問題です。特に、当社のVideoMAE（標準的なViTを使用）は任意の追加データなしで、Kinetics-400で87.4%、Something-Something V2で75.4%、UCF101で91.3%、HMDB51で62.6%という精度を達成しました。コードは以下のURLから入手可能です：https://github.com/MCG-NJU/VideoMAE

ソースPDF