HyperAIHyperAI

Command Palette

Search for a command to run...

VQA: 視覚質問応答

Aishwarya Agrawal; Jiasen Lu; Stanislaw Antol; Margaret Mitchell; C. Lawrence Zitnick; Dhruv Batra; Devi Parikh

概要

私たちは自由形式かつオープンエンドの視覚的な質問応答(Visual Question Answering: VQA)というタスクを提案します。画像とその画像に関する自然言語の質問が与えられた場合、正確な自然言語での回答を提供することが求められます。現実世界のシナリオ、例えば視覚障害者の支援などに準拠するように、質問と回答はどちらもオープンエンドとなっています。視覚的な質問は、画像の背景詳細や潜在的な文脈を含む異なる領域を選択的に対象とします。したがって、VQAで成功するシステムは、一般的な画像キャプション生成システムよりも詳細な画像理解と複雑な推論が必要となります。さらに、多くのオープンエンドの回答が数単語または選択肢形式で提供できる閉じた答えセットであるため、VQAは自動評価に適しています。当該データセットには約25万枚の画像、約76万件の質問、および約1000万件の回答(www.visualqa.org)が含まれており、その情報について説明します。VQAに関する多数のベースラインと手法が提供され、人間のパフォーマンスとの比較も行われています。私たちのVQAデモはCloudCV(http://cloudcv.org/vqa)で利用可能です


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
VQA: 視覚質問応答 | 記事 | HyperAI超神経