7ヶ月前

視覚質問応答

マルチモーダル表現

データセット

AIインフラストラクチャ

マルチモーダル

Gerard de Melo Sedigheh Eslami Tibor Bleidt

概要

視覚的質問応答（Visual Question Answering: VQA）の課題は、一般ドメインの実世界画像を対象として広く研究されてきた。しかし、一般ドメインVQAの知見をアートドメイン（ArtVQA）に転移することは容易ではなく、後者では視覚データから抽象的概念や筆致の細部、絵画のスタイルを識別する能力に加え、アートに関する背景知識を有することが求められる。このような課題は、高品質なデータセットの不足によってさらに悪化している。本研究では、ArtVQAの唯一の公開ベンチマークデータセットであるAQUAデータセットに潜む隠れた言語的バイアスに着目する。その結果、多くの質問は視覚情報にアクセスせずに回答可能であることが明らかとなり、ArtVQAにおける「V」（視覚）の意義が著しく薄れてしまう。この問題に対処するため、SemArtデータコレクションから得られた構造化情報を用いて、シンプルでありながら実用的なデータセット「ArtQuest」を構築した。本研究で用いたデータセットおよび結果の再現に必要なパイプラインは、すべて公開されており、https://github.com/bletib/artquest にて入手可能である。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

視覚質問応答

マルチモーダル表現

データセット

AIインフラストラクチャ

マルチモーダル

Gerard de Melo Sedigheh Eslami Tibor Bleidt

概要

視覚的質問応答（Visual Question Answering: VQA）の課題は、一般ドメインの実世界画像を対象として広く研究されてきた。しかし、一般ドメインVQAの知見をアートドメイン（ArtVQA）に転移することは容易ではなく、後者では視覚データから抽象的概念や筆致の細部、絵画のスタイルを識別する能力に加え、アートに関する背景知識を有することが求められる。このような課題は、高品質なデータセットの不足によってさらに悪化している。本研究では、ArtVQAの唯一の公開ベンチマークデータセットであるAQUAデータセットに潜む隠れた言語的バイアスに着目する。その結果、多くの質問は視覚情報にアクセスせずに回答可能であることが明らかとなり、ArtVQAにおける「V」（視覚）の意義が著しく薄れてしまう。この問題に対処するため、SemArtデータコレクションから得られた構造化情報を用いて、シンプルでありながら実用的なデータセット「ArtQuest」を構築した。本研究で用いたデータセットおよび結果の再現に必要なパイプラインは、すべて公開されており、https://github.com/bletib/artquest にて入手可能である。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています