TVQA データ セットは大規模なビデオの質問と回答のデータ セットであり、ビデオは 6 つの古典的なアメリカの TV シリーズからのものです。このデータ セットには、長さ 60 ~ 90 秒の 21.8K のビデオ クリップからの約 152.5K の質問と回答のペアが含まれており、合計の長さは 460 時間を超えています。これらの質問と回答のペアは、トレーニング、検証、およびテスト セットで 8:1:1 の比率で使用されます。
TVQA データセット内の質問は、質問部分とローカリゼーション部分を含む組み合わせ設計を採用しており、各質問には時間的ローカリゼーションがあります。このような質問に答えるには、モデルがある程度の時間的位置特定と、対話 (字幕) とビデオ (ビデオ) を理解する能力を備えている必要があります。