6ヶ月前

視覚質問応答

自然言語処理

アプローチ／フレームワーク

自然言語処理

マルチモーダル

Leonard Salewski A. Sophia Koepke Hendrik P. A. Lensch Zeynep Akata

概要

視覚的質問応答（Visual Question Answering: VQA）の文脈において、説明を提供することは機械学習における根本的な課題である。VQAにおける自然言語による説明の生成プロセスに関する詳細な知見を得るため、本研究ではCLEVRデータセットに自然言語による説明を追加した大規模なCLEVR-Xデータセットを導入する。CLEVRデータセット内の各画像・質問ペアに対して、CLEVR-Xは元のシーングラフから導出された複数の構造化されたテキスト形式の説明を含んでいる。構成上、CLEVR-Xの説明は正しく、与えられた質問に答えるために必要な推論過程および視覚的情報を正確に記述している。我々は、提案するデータセットに含まれる正解説明が実際に完全かつ関連性を持つことを確認するため、ユーザー研究を実施した。さらに、CLEVR-Xデータセット上で2つの最先端フレームワークを用いて、VQA文脈における自然言語説明生成のベースライン結果を提示する。また、異なる質問種別および回答種別における説明生成品質について詳細な分析を行った。さらに、自然言語生成（NLG）評価指標の収束性に与える影響を、正解説明の数を変化させた場合に検討した。CLEVR-Xデータセットは、\url{https://explainableml.github.io/CLEVR-X/}にて公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

視覚質問応答

自然言語処理

アプローチ／フレームワーク

自然言語処理

マルチモーダル

Leonard Salewski A. Sophia Koepke Hendrik P. A. Lensch Zeynep Akata

概要

視覚的質問応答（Visual Question Answering: VQA）の文脈において、説明を提供することは機械学習における根本的な課題である。VQAにおける自然言語による説明の生成プロセスに関する詳細な知見を得るため、本研究ではCLEVRデータセットに自然言語による説明を追加した大規模なCLEVR-Xデータセットを導入する。CLEVRデータセット内の各画像・質問ペアに対して、CLEVR-Xは元のシーングラフから導出された複数の構造化されたテキスト形式の説明を含んでいる。構成上、CLEVR-Xの説明は正しく、与えられた質問に答えるために必要な推論過程および視覚的情報を正確に記述している。我々は、提案するデータセットに含まれる正解説明が実際に完全かつ関連性を持つことを確認するため、ユーザー研究を実施した。さらに、CLEVR-Xデータセット上で2つの最先端フレームワークを用いて、VQA文脈における自然言語説明生成のベースライン結果を提示する。また、異なる質問種別および回答種別における説明生成品質について詳細な分析を行った。さらに、自然言語生成（NLG）評価指標の収束性に与える影響を、正解説明の数を変化させた場合に検討した。CLEVR-Xデータセットは、\url{https://explainableml.github.io/CLEVR-X/}にて公開されている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

CLEVR-X：自然言語による説明を目的とした視覚推論データセット | 記事 | HyperAI超神経