HyperAIHyperAI

Command Palette

Search for a command to run...

ActivityNet-QA: 質問応答を用いた複雑なウェブ動画の理解ためのデータセット

Zhou Yu; Dejing Xu; Jun Yu; Ting Yu; Zhou Zhao; Yueting Zhuang; Dacheng Tao

概要

言語と視覚のモデリングにおける最近の進展は、画像質問応答に成功裏に適用されてきました。この研究方向をビデオ質問応答(VideoQA)へと拡張することは、重要かつ自然なステップです。画像領域では大規模で完全にアノテーションされたベンチマークデータセットが存在するのに対し、VideoQAデータセットは小規模であり、自動生成されるなど、制限があります。これらの制限により、実際の応用が制約されています。本稿では、完全にアノテーションされ、大規模なVideoQAデータセットであるActivityNet-QAを紹介します。このデータセットは、人気のあるActivityNetデータセットから派生した5,800本の複雑なウェブビデオに対して58,000組の質問応答ペアを含んでいます。我々はActivityNet-QAデータセットの統計分析を行い、既存のVideoQAベースラインとの比較による広範な実験を行いました。さらに、特に長尺ビデオにおいてVideoQA性能を向上させるため的各种ビデオ表現戦略を探求しています。このデータセットはhttps://github.com/MILVLG/activitynet-qa で利用可能です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ActivityNet-QA: 質問応答を用いた複雑なウェブ動画の理解ためのデータセット | 記事 | HyperAI超神経