18日前

軽量型再帰的クロスモーダルエンコーダによる動画質問応答

{Cheol Jeong, Steve Andreas Immanuel}
要約

動画質問応答タスクは、基本的にテキストと動画の情報間を効果的に統合し、回答を予測する方法に帰着する。多数の先行研究では、両モダリティを統合するために、自己注意機構(self-attention mechanism)を活用したトランスフォーマー・エンコーダをクロスモーダルエンコーダとして用いている。しかし、自己注意機構の計算コストが高く、動画データの次元も非常に高いことから、以下のいずれかの制約を強いられる:1)オフラインで抽出された動画およびテキスト特徴量のみでクロスモーダルエンコーダを訓練する、または2)動画およびテキストの特徴抽出器を含む形でエンコーダを訓練するが、動画フレームは疎にサンプリングする。オフライン特徴量のみで学習を行う場合、抽出された特徴量と下流タスクのデータとの間に乖離が生じるという問題がある。これは、動画特徴抽出器(例:動作認識)とテキスト特徴抽出器(例:意味分類)が異なるドメインで独立に学習されているためである。一方、疎なフレームサンプリングを用いる場合、動画に豊富な情報が含まれる場合やフレーム数が多い場合には情報損失が生じる可能性がある。こうした課題を緩和するために、本研究では、自己注意機構を単一の学習可能な特別トークン(special token)に置き換えることで、テキストおよび動画特徴量を要約する軽量型再帰的クロスモーダルエンコーダ(Lightweight Recurrent Cross-modal Encoder; LRCE)を提案する。これにより、モデルの計算コストを大幅に低減できる。さらに、動画の異なるセグメントからフレームを疎にサンプリングする新規なマルチセグメントサンプリング手法を導入し、より細粒度な情報を得ることを可能にする。3つのVideoQAデータセットにおける広範な実験を通じて、LRCEが従来手法に比べて顕著な性能向上を達成することを示した。