6ヶ月前

視覚質問応答

データセット

AIインフラストラクチャ

アプローチ／フレームワーク

マルチモーダル

Zechen Li Anders Søgaard

概要

合成データセットは、視覚的質問応答（VQA）データセットの推論能力を検証する手段として成功裏に活用されてきた。たとえば、CLEVR（johnson2017clevr）は、多様な視覚的推論能力を評価するためのデータセットであり、形状、色、サイズに関する比較、数的推論、存在に関する主張などを問う質問が含まれている。本論文では、最小限のバイアスを持つ診断用の視覚的質問応答データセット、QLEVRを提案する。このデータセットは、存在や数的量化にとどまらず、より複雑な量化子およびその組み合わせに焦点を当てており、例えば「画像内に、少なくとも3つの青い球より小さい赤い球が2つ以上存在するか？」といった質問を含む。本研究では、QLEVRデータセットの作成プロセスを詳述し、最先端の視覚的質問応答モデルに対する初期評価を提示する。その結果、QLEVRは現在のモデルにとって極めて困難な課題であることが明らかになった。コードおよびデータセットは、https://github.com/zechenli03/QLEVR で公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

視覚質問応答

データセット

AIインフラストラクチャ

アプローチ／フレームワーク

マルチモーダル

Zechen Li Anders Søgaard

概要

合成データセットは、視覚的質問応答（VQA）データセットの推論能力を検証する手段として成功裏に活用されてきた。たとえば、CLEVR（johnson2017clevr）は、多様な視覚的推論能力を評価するためのデータセットであり、形状、色、サイズに関する比較、数的推論、存在に関する主張などを問う質問が含まれている。本論文では、最小限のバイアスを持つ診断用の視覚的質問応答データセット、QLEVRを提案する。このデータセットは、存在や数的量化にとどまらず、より複雑な量化子およびその組み合わせに焦点を当てており、例えば「画像内に、少なくとも3つの青い球より小さい赤い球が2つ以上存在するか？」といった質問を含む。本研究では、QLEVRデータセットの作成プロセスを詳述し、最先端の視覚的質問応答モデルに対する初期評価を提示する。その結果、QLEVRは現在のモデルにとって極めて困難な課題であることが明らかになった。コードおよびデータセットは、https://github.com/zechenli03/QLEVR で公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

QLEVR：数量表現言語と基礎視覚推論のための診断データセット | 記事 | HyperAI超神経