6ヶ月前

概要

動画と自然言語の理解は、動画質問応答、テキスト-動画検索、マルチラベル分類など産業界において多岐にわたる応用が期待されています。現在の動画-言語理解手法は、一般的に計算コストの高い多モーダルエンコーダーと特徴融合モジュールを採用しており、特に産業応用で一般的な長時間の動画フレームや長文を扱う際に困難を抱えています。本論文では、高い精度と効率性を実現する動画-言語理解モデルMuLTIを提案します。MuLTIは、効率的かつ効果的な特徴融合と、下流タスクへの迅速な適応を可能にします。具体的には、適応的プーリング残差マッピングと自己注意（self-attention）モジュールを基盤として、テキスト誘導型のマルチウェイサンプラー（Text-Guided MultiWay-Sampler）を設計し、長序列のサンプリングと多モーダル特徴の融合を実現しました。これにより、従来のサンプラーが引き起こす性能低下を回避しつつ、計算コストの低減を達成しました。その結果、限られた計算リソースのもとでも、より長い序列を処理することが可能になりました。さらに、動画質問応答タスクにおける事前学習タスクの不足を補うために、新たな事前学習タスク「複数選択モデリング（Multiple Choice Modeling）」を提案しました。このタスクは、事前学習と下流タスクのギャップを埋め、動画とテキスト特徴の整合性を高める効果を発揮します。効率的な特徴融合モジュールと新たな事前学習タスクの導入により、MuLTIは複数のデータセットにおいて最先端の性能を達成しました。実装コードおよび事前学習済みモデルは、公開予定です。

ソースPDF