18日前

PIDRo:テキスト-ビデオ検索における並列同素体アテンションと動的ルーティング

{Edmund Y. Lam, Youliang Yan, Songcen Xu, Hang Xu, Jiaxi Gu, Weimian Li, Jianzhuang Liu, Bin Shao, Renjing Pei, Peiyan Guan}
PIDRo:テキスト-ビデオ検索における並列同素体アテンションと動的ルーティング
要約

テキスト・ビデオ検索は、マルチモーダル研究における基盤的なタスクであり、高い実用的価値を有している。大規模なデータに基づく事前学習画像・テキストモデル(例:CLIP)の著しい成功に触発され、多くの手法がCLIPの強力な表現学習能力をテキスト・ビデオ検索に転移することを目的として提案されている。しかし、ビデオと画像のモダリティの違いのため、CLIPをビデオ領域に効果的に適応する方法については、まだ十分に検討されていない。本論文では、この問題に対して2つの視点から考察を行う。第一に、CLIPの転移された画像エンコーダーを、シームレスな方法で細粒度のビデオ理解に向け強化する。第二に、モデル構造の改善と損失関数の設計の両面から、ビデオとテキスト間の細粒度な対比学習を実現する。特に、並列同型アテンション(parallel isomeric attention)と動的ルーティング(dynamic routing)を備えた細粒度対比モデル、すなわちPIDRoを提案する。並列同型アテンションモジュールは、ビデオエンコーダとして用いられ、パッチレベルとフレームレベルの両方からビデオの空間時系列情報を並列にモデル化する2つのブランチから構成される。一方、動的ルーティングモジュールは、CLIPのテキストエンコーダーを強化する目的で構築され、文内の関連する語トークンに細粒度情報を分配することで、情報豊かな単語表現を生成する。このようなモデル設計により、情報豊かなパッチ、フレームおよび単語表現が得られる。その後、これらをトークン単位で相互作用させることで、より細粒度なテキスト・ビデオのアライメントと、より正確な検索を実現できる。PIDRoは、MSR-VTT、MSVD、LSMDC、DiDeMo、ActivityNetなど、さまざまなテキスト・ビデオ検索ベンチマークにおいて、最先端の性能を達成している。