17日前

CLIPベースの画像から動画への知識転移における時系列モデリングの再検討

Ruyang Liu, Jingjia Huang, Ge Li, Jiashi Feng, Xinglong Wu, Thomas H. Li

要約

画像テキスト事前学習モデル（例：CLIP）は、大規模な画像-テキストペアデータから学習した優れたマルチモーダル知識を示しており、視覚表現学習の分野において動画領域への応用可能性が注目を集めている。本論文では、CLIPモデルを基盤とし、画像から動画への知識転移という文脈において、時系列モデリングの再検討を行う。これは、画像-テキスト事前学習モデルを動画領域へ拡張する上で最も重要な課題である。我々は、現在の時系列モデリング手法が、高レベルの意味的特徴に依存するタスク（例：リトリーバル）または低レベルの視覚パターンに依存するタスク（例：認識）のいずれかに特化しており、両者を同時に効果的に処理できないことを発見した。この課題の本質的な難しさは、CLIPモデルにおける高レベル知識と低レベル知識の両方を活用しつつ、時系列的依存関係を適切にモデル化することにある。この問題に対処するために、我々は「空間時系列補助ネットワーク（Spatial-Temporal Auxiliary Network, STAN）」を提案する。STANは、CLIPモデルを多様な動画タスクに拡張可能なシンプルかつ効果的な時系列モデリング機構であり、低レベルおよび高レベルの知識転移を実現するため、空間時系列モジュールを分解したブランチ構造を採用することで、複数レベルのCLIP特徴を空間的・時系列的に文脈化可能としている。本手法の有効性を、代表的な2つの動画タスクである「動画-テキストリトリーバル」と「動画認識」において評価した。広範な実験により、MSR-VTT、DiDeMo、LSMDC、MSVD、Kinetics-400、Something-Something-V2など、さまざまなデータセットにおいて、最先端手法を上回る性能を示した。コードは https://github.com/farewellthree/STAN にて公開される予定である。