HyperAIHyperAI

Command Palette

Search for a command to run...

VIMPAC:マスクトークン予測とコントラスト学習を用いた動画事前学習

Hao Tan Jie Lei Thomas Wolf Mohit Bansal

概要

ビデオ理解は、全体的なコンテンツを捉え、その内部的な関係性(例えば因果関係、動き、時空間的対応など)をモデル化することに依存している。これらの相互作用を学習するため、VQ-VAEを用いて離散化されたビデオトークンに対して「マスクして予測する」事前学習タスクを適用する。言語とは異なり、テキストトークンは比較的独立しているが、隣接するビデオトークンは通常強い相関関係を持つ(例えば連続する映像フレームは非常に似た外観を持つ)。そのため、個々のトークンを均一にマスクしてしまうと、学習すべき有用な表現を獲得するにはタスクがやりすぎに簡単になりすぎる。この問題に対処するため、空間的および時間的領域において隣接するビデオトークンをブロック単位でマスクする戦略を提案する。さらに、同一ビデオから抽出されたビデオクリップかどうかを予測することで、グローバルなコンテンツをより深く捉えるため、増強を用いない対照的学習手法を導入する。本研究では、整理されていないビデオデータ上でモデルを事前学習し、その結果、複数のビデオ理解データセット(例:SSV2、Diving48)において最先端の性能を達成できることを示した。最後に、モデルのスケーラビリティおよび事前学習手法の設計に関する詳細な分析を提供する。コードは https://github.com/airsplay/vimpac にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています