7ヶ月前

視覚質問応答

ビデオ処理

マルチモーダル

マルチモーダル

コンピュータビジョン

Zhou Yu; Dejing Xu; Jun Yu; Ting Yu; Zhou Zhao; Yueting Zhuang; Dacheng Tao

概要

言語と視覚のモデリングにおける最近の進展は、画像質問応答に成功裏に適用されてきました。この研究方向をビデオ質問応答（VideoQA）へと拡張することは、重要かつ自然なステップです。画像領域では大規模で完全にアノテーションされたベンチマークデータセットが存在するのに対し、VideoQAデータセットは小規模であり、自動生成されるなど、制限があります。これらの制限により、実際の応用が制約されています。本稿では、完全にアノテーションされ、大規模なVideoQAデータセットであるActivityNet-QAを紹介します。このデータセットは、人気のあるActivityNetデータセットから派生した5,800本の複雑なウェブビデオに対して58,000組の質問応答ペアを含んでいます。我々はActivityNet-QAデータセットの統計分析を行い、既存のVideoQAベースラインとの比較による広範な実験を行いました。さらに、特に長尺ビデオにおいてVideoQA性能を向上させるため的各种ビデオ表現戦略を探求しています。このデータセットはhttps://github.com/MILVLG/activitynet-qa で利用可能です。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

視覚質問応答

ビデオ処理

マルチモーダル

マルチモーダル

コンピュータビジョン

Zhou Yu; Dejing Xu; Jun Yu; Ting Yu; Zhou Zhao; Yueting Zhuang; Dacheng Tao

概要

言語と視覚のモデリングにおける最近の進展は、画像質問応答に成功裏に適用されてきました。この研究方向をビデオ質問応答（VideoQA）へと拡張することは、重要かつ自然なステップです。画像領域では大規模で完全にアノテーションされたベンチマークデータセットが存在するのに対し、VideoQAデータセットは小規模であり、自動生成されるなど、制限があります。これらの制限により、実際の応用が制約されています。本稿では、完全にアノテーションされ、大規模なVideoQAデータセットであるActivityNet-QAを紹介します。このデータセットは、人気のあるActivityNetデータセットから派生した5,800本の複雑なウェブビデオに対して58,000組の質問応答ペアを含んでいます。我々はActivityNet-QAデータセットの統計分析を行い、既存のVideoQAベースラインとの比較による広範な実験を行いました。さらに、特に長尺ビデオにおいてVideoQA性能を向上させるため的各种ビデオ表現戦略を探求しています。このデータセットはhttps://github.com/MILVLG/activitynet-qa で利用可能です。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています