
要約
私たちは、時空間動画質問応答(Spatio-Temporal Video Question Answering)という課題を提示します。この課題では、知能システムが自然言語の質問に答えるために、関連する瞬間を同時に検索し、参照される視覚的概念(人物と物体)を検出することが求められます。まず、TVQAデータセットに310,800件のバウンディングボックスを追加し、描かれた物体を質問と回答における視覚的概念にリンクさせました。この拡張版をTVQA+と名付けます。次に、時空間領域で証拠を根ざす統一フレームワークである「時空間応答者(Spatio-Temporal Answerer with Grounded Evidence, STAGE)」を提案します。包括的な実験と分析により、私たちのフレームワークの有効性が示され、TVQA+データセットの豊富なアノテーションが質問応答タスクにどのように貢献するかが明らかになりました。さらに、この結合タスクを行うことで、モデルは洞察力があり解釈可能な時空間注意可視化を生成することができます。データセットとコードは公開されており、以下のURLからアクセスできます: http://tvqa.cs.unc.edu, https://github.com/jayleicn/TVQAplus