1ヶ月前

ActivityNet-QA: 質問応答を用いた複雑なウェブ動画の理解ためのデータセット

Zhou Yu; Dejing Xu; Jun Yu; Ting Yu; Zhou Zhao; Yueting Zhuang; Dacheng Tao
ActivityNet-QA: 質問応答を用いた複雑なウェブ動画の理解ためのデータセット
要約

言語と視覚のモデリングにおける最近の進展は、画像質問応答に成功裏に適用されてきました。この研究方向をビデオ質問応答(VideoQA)へと拡張することは、重要かつ自然なステップです。画像領域では大規模で完全にアノテーションされたベンチマークデータセットが存在するのに対し、VideoQAデータセットは小規模であり、自動生成されるなど、制限があります。これらの制限により、実際の応用が制約されています。本稿では、完全にアノテーションされ、大規模なVideoQAデータセットであるActivityNet-QAを紹介します。このデータセットは、人気のあるActivityNetデータセットから派生した5,800本の複雑なウェブビデオに対して58,000組の質問応答ペアを含んでいます。我々はActivityNet-QAデータセットの統計分析を行い、既存のVideoQAベースラインとの比較による広範な実験を行いました。さらに、特に長尺ビデオにおいてVideoQA性能を向上させるため的各种ビデオ表現戦略を探求しています。このデータセットはhttps://github.com/MILVLG/activitynet-qa で利用可能です。