8日前
VLM:ビデオ理解のためのタスクに依存しないビデオ・言語モデルの事前学習
Hu Xu, Gargi Ghosh, Po-Yao Huang, Prahal Arora, Masoumeh Aminzadeh, Christoph Feichtenhofer, Florian Metze, Luke Zettlemoyer

要約
本稿では、さまざまな最終タスクに対応できる、タスクに依存しないシンプルなマルチモーダル事前学習手法を提案する。この手法は、動画入力、テキスト入力、あるいは両方の入力を受け入れることができる。従来の事前学習手法は、両モダリティを必要とする単一のクロスモーダルエンコーダを採用しているため、リトリーブ型の最終タスクに適用しづらい。あるいは、二つのユニモーダルエンコーダを用いたより複雑なマルチタスク学習を採用することで、早期のクロスモーダル統合を制限している。本研究では、モダリティ間の混合をより効果的に実現する新しい事前学習マスキングスキームを導入する。たとえば、テキストのマスクを、最も近い動画埋め込みを予測するように強制するなど、モダリティ間の融合を強化しつつ、同時にモダリティの分離性も維持する(例:すべての入力を使用せずに、ユニモーダルな予測が必要な場合もある)。実験結果により、従来のあらゆる手法よりも広範なタスクにおいて優れた性能を示し、多くの場合、タスクに特化した事前学習を上回ることが確認された。コードは、https://github.com/pytorch/fairseq/tree/main/examples/MMPT にて公開されている。