7日前

MIST:長時間動画質問応答のための多モーダル反復空間時系列変換器

Difei Gao, Luowei Zhou, Lei Ji, Linchao Zhu, Yi Yang, Mike Zheng Shou
MIST:長時間動画質問応答のための多モーダル反復空間時系列変換器
要約

日常活動における人間を支援するための動画質問応答(VideoQA)システムを構築するためには、多様かつ複雑なイベントを含む長時間動画から回答を抽出できる能力が不可欠である。現在のマルチモーダルVQAモデルは、画像や短時間の動画クリップにおいて高い性能を達成しており、特に大規模なマルチモーダル事前学習の成功によりその性能はさらに向上している。しかし、これらの手法を長時間動画に拡張しようとすると、新たな課題が生じる。一方では、密な動画サンプリング戦略を採用すると計算コストが極めて高くなる。他方で、疎なサンプリングに依存する手法は、複数のイベントおよび複数の粒度における視覚的推論が求められる状況では困難に直面する。本研究では、長時間動画に対する事前学習モデルの適応をより効果的に行うため、新しいモデルであるマルチモーダル反復的空間時間トランスフォーマー(Multi-modal Iterative Spatial-temporal Transformer, MIST)を提案する。具体的には、MISTは従来の密な空間時間自己注意機構を、質問に直接関連するフレームおよび画像領域を適応的に選択する段階的セグメント選択モジュールと領域選択モジュールに段階的に分解する。これにより、異なる粒度の視覚的概念を効率的なアテンションモジュールで処理する。さらに、MISTは複数のレイヤーにわたり選択とアテンションを反復的に行うことで、複数のイベントにわたる推論を可能にする。AGQA、NExT-QA、STAR、Env-QAの4つのVideoQAデータセットにおける実験結果から、MISTは最先端の性能を達成するとともに、計算効率および解釈可能性において優れた性能を示した。

MIST:長時間動画質問応答のための多モーダル反復空間時系列変換器 | 最新論文 | HyperAI超神経