HyperAIHyperAI

Command Palette

Search for a command to run...

FVQA: 事実に基づく視覚的な質問応答

Peng Wang* Qi Wu* Chunhua Shen Anthony Dick Anton van den Hengel

概要

視覚質問応答(VQA)は、コンピュータビジョンと自然言語処理の両分野で多くの注目を集めています。これは、2つの重要な情報源の間の関係性に洞察を提供するからです。現在のデータセットやそれらに基づいて構築されたモデルは、質問と画像のみの直接的な分析によって回答可能な質問に焦点を当ててきました。外部情報なしで回答可能なこのような質問の集合体は興味深いものですが、非常に限定的です。例えば、常識や基本的な事実知識が必要な質問は含まれていません。本稿では、より深い推論を必要とするFVQAというVQAデータセットを紹介します。FVQAには、外部情報が必要な質問のみが含まれています。従来の視覚質問応答データセット(画像-質問-回答の三つ組を含む)を拡張し、追加の画像-質問-回答-支持事実のタプルを導入しました。支持事実は、<猫, 能力, 樹上への登攀>()のような構造的な三つ組として表現されます。我々はFVQAデータセットに対していくつかの基準モデルを評価し、支持事実に基づいて画像について推論できる新しいモデルについて説明します。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています