
要約
私たちは、任意のマルチモーダルシーケンスデータ(例えば、ビデオクリップと言語文)間の意味的類似性を測定できる手法JSFusion(Joint Sequence Fusion: 共同シーケンス融合)を提案します。当該マルチモーダルマッチングネットワークは2つの主要な構成要素から成ります。まず、Joint Semantic Tensor(共同意味テンソル)が2つのシーケンスデータの濃密なペアワイズ表現を3次元テンソルに構成します。次に、Convolutional Hierarchical Decoder(畳み込み階層デコーダー)が2つのシーケンスマダリティ間の隠れた階層的なマッチングを発見することにより、それらの類似度スコアを計算します。両モジュールは、階層的注意メカニズムを利用して、下位から上位へと順に良好にマッチした表現パターンを強調し、不一致なものを除去します。JSFusionは任意のマルチモーダルシーケンスデータに適用可能な普遍的なモデルですが、本研究では特にビデオ-言語タスクに焦点を当てています。これらのタスクにはマルチモーダル検索やビデオQAなどが含まれます。私たちはLSMDCにおいて3つの検索およびVQAタスクでJSFusionモデルを評価しました。その結果、当該モデルはこれまで報告された中で最良の性能を達成しました。またMSR-VTTデータセットにおける複数選択問題と映画検索タスクでも評価を行い、多くの最先端手法よりも優れた性能を示しています。