9日前

ビデオ・テキストをゲームプレイヤーとして:クロスモーダル表現学習のための階層的バーンザフ相互作用

Peng Jin, Jinfa Huang, Pengfei Xiong, Shangxuan Tian, Chang Liu, Xiangyang Ji, Li Yuan, Jie Chen
ビデオ・テキストをゲームプレイヤーとして:クロスモーダル表現学習のための階層的バーンザフ相互作用
要約

対照学習に基づく動画・言語表現学習手法(例:CLIP)は、事前に定義された動画・テキストペア間における意味的相互作用を追求することで、優れた性能を達成している。このような粗粒度のグローバルな相互作用を明確にし、さらに一歩進んで細粒度のクロスモーダル学習を実現するためには、困難な「殻を破る」相互作用に直面しなければならない。本論文では、動画とテキストを多変量協力ゲーム理論に基づくゲームプレイヤーとして創造的にモデル化することで、多様な粒度、柔軟な組み合わせ、曖昧な強度を伴う細粒度の意味的相互作用における不確実性を賢く扱う手法を提案する。具体的には、動画フレームとテキスト語との間の可能な対応関係を評価するため、階層的バーンハフ相互作用(Hierarchical Banzhaf Interaction; HBI)を提案する。この手法により、感度高く説明可能なクロスモーダルコントラストが実現される。複数の動画フレームおよび複数のテキスト語間の協力ゲームを効率的に実現するため、元の動画フレーム(またはテキスト語)をクラスタリングし、マージされたトークン間のバーンハフ相互作用を計算する。このトークンマージモジュールを段階的にスタックすることで、異なる意味的レベルにおける協力ゲームを実現する。一般的に用いられるテキスト・動画検索および動画質問応答ベンチマークにおいて、優れた性能を示す広範な実験により、HBIの有効性が裏付けられている。さらに、本手法はクロスモーダル相互作用の理解を促進する可視化ツールとしても機能することが示され、コミュニティにおける長期的な影響が期待される。プロジェクトページは以下のURLで公開されている:https://jpthu17.github.io/HBI/。