DropMAE:時系列マッチングタスクにおける空間注意ドロップアウトを用いたマスク自動エンコーダを用いた表現学習

本論文では、さまざまな時間的マッチングに基づく下流タスクにおけるマスク付き自己符号化器(MAE)の動画事前学習について検討する。具体的には、オブジェクトレベルの追跡タスク(動画オブジェクト追跡:VOT、動画オブジェクトセグメンテーション:VOS)、自己教師付き視覚的対応関係学習、密追跡タスク(光流推定、長期的な点追跡)、および3次元点群追跡を対象とする。本研究の目的は、多様な下流追跡タスクにおける時間的マッチング能力を向上させるための汎用的な表現を提供することにある。その実現のため、まず、動画のフレームパッチをランダムにマスクし、フレームのピクセルを再構成する単純なMAEの拡張手法が、空間的特徴に強く依存しつつ時間的関係を無視するため、最適な時間的マッチング表現を得られないことを発見した。この問題を緩和するために、我々は「DropMAE」という新規手法を提案する。DropMAEは、フレーム再構成の過程において空間的注意機構のドロップアウトを適応的に実行することで、動画内の時間的対応関係学習を促進する。DropMAEを用いた実験から、以下の重要な知見を得た:(1)DropMAEは強力かつ効率的な時間的マッチング学習者であり、ImageNetベースのMAEと比較して2倍の高速な事前学習速度で、マッチングに基づくタスクにおいてより優れた微調整結果を達成する。(2)DropMAEは、オブジェクトレベルのマッチングタスク(VOT、VOS)、密追跡タスク(光流推定、任意の点追跡:TAP)、さらには点群データという異なるモダリティにおける3次元追跡タスクに対しても有効である。本研究では、既存の先行研究に先立ち、各下流追跡タスクに対応するViTベースの追跡器を構築した。そして、事前学習済みのDropMAEモデルをこれらのViTベース追跡器に直接ロードし、追加の修正なしに微調整が可能であることを示した。6つの下流追跡タスクにおける実験結果から、DropMAEが多様な追跡タスクに適用可能な汎用的な事前学習表現として有効であることが明確に示された。