1ヶ月前

TVQA: 局所的で構成的なビデオ質問応答

Jie Lei; Licheng Yu; Mohit Bansal; Tamara L. Berg
TVQA: 局所的で構成的なビデオ質問応答
要約

近年、画像を基にした質問応答(QA)タスクへの関心が高まっています。しかし、データの制約により、ビデオを基にしたQAに関する研究は非常に少ない状況です。本論文では、TVQAという大規模なビデオQAデータセットを紹介します。このデータセットは、6つの人気テレビ番組に基づいて作成され、21,793のクリップから152,545のQAペアで構成されています。対象となるビデオの総時間は460時間を超えます。質問は合成的な性質を持ち、システムがクリップ内の関連する瞬間を特定し、字幕ベースの会話を理解し、関連する視覚的概念を認識することを必要とします。私たちはこの新しいデータセットの分析とともに、いくつかのベースラインとTVQAタスク向けのマルチストリームエンドツーエンド学習可能なニューラルネットワークフレームワークを提供しています。データセットはhttp://tvqa.cs.unc.eduで公開されています。