
要約
ビデオ理解は、全体的なコンテンツを捉え、その内部的な関係性(例えば因果関係、動き、時空間的対応など)をモデル化することに依存している。これらの相互作用を学習するため、VQ-VAEを用いて離散化されたビデオトークンに対して「マスクして予測する」事前学習タスクを適用する。言語とは異なり、テキストトークンは比較的独立しているが、隣接するビデオトークンは通常強い相関関係を持つ(例えば連続する映像フレームは非常に似た外観を持つ)。そのため、個々のトークンを均一にマスクしてしまうと、学習すべき有用な表現を獲得するにはタスクがやりすぎに簡単になりすぎる。この問題に対処するため、空間的および時間的領域において隣接するビデオトークンをブロック単位でマスクする戦略を提案する。さらに、同一ビデオから抽出されたビデオクリップかどうかを予測することで、グローバルなコンテンツをより深く捉えるため、増強を用いない対照的学習手法を導入する。本研究では、整理されていないビデオデータ上でモデルを事前学習し、その結果、複数のビデオ理解データセット(例:SSV2、Diving48)において最先端の性能を達成できることを示した。最後に、モデルのスケーラビリティおよび事前学習手法の設計に関する詳細な分析を提供する。コードは https://github.com/airsplay/vimpac にて公開されている。