4ヶ月前

視覚質問応答

マルチモーダル

インテリジェントな質問応答

自然言語処理

マルチモーダル

Li Qing Tao Qingyi Joty Shafiq Cai Jianfei Luo Jiebo

概要

視覚的質問応答（VQA）に関する既存の多くの研究は、予測された回答の正確性を向上させることに注力しているが、その説明については無視しがちである。本研究では、回答そのものと同様、あるいはそれ以上に重要なのが回答の説明であると主張する。なぜなら、説明により質問と応答のプロセスがより理解しやすく、追跡可能になるからである。この目的のため、予測された回答とともに説明を生成することを要求する新しいタスク「VQA-E（説明付きVQA）」を提案する。まず、新たなデータセットを構築し、その後、マルチタスク学習アーキテクチャを用いてVQA-E問題を定式化する。本研究で構築したVQA-Eデータセットは、VQA v2データセットから、利用可能なキャプションを知的に活用することで自動的に生成されたものである。また、我々の手法によって合成された説明の質を検証するため、ユーザー調査を実施した。定量的な評価により、説明からの追加的な教師信号が、回答を正当化する洞察をもたらすテキスト文を生成するだけでなく、回答予測の性能向上にも寄与することを示した。提案モデルは、VQA v2データセットにおいて、既存の最先端手法を明確な差で上回っている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

4ヶ月前

視覚質問応答

マルチモーダル

インテリジェントな質問応答

自然言語処理

マルチモーダル

Li Qing Tao Qingyi Joty Shafiq Cai Jianfei Luo Jiebo

概要

視覚的質問応答（VQA）に関する既存の多くの研究は、予測された回答の正確性を向上させることに注力しているが、その説明については無視しがちである。本研究では、回答そのものと同様、あるいはそれ以上に重要なのが回答の説明であると主張する。なぜなら、説明により質問と応答のプロセスがより理解しやすく、追跡可能になるからである。この目的のため、予測された回答とともに説明を生成することを要求する新しいタスク「VQA-E（説明付きVQA）」を提案する。まず、新たなデータセットを構築し、その後、マルチタスク学習アーキテクチャを用いてVQA-E問題を定式化する。本研究で構築したVQA-Eデータセットは、VQA v2データセットから、利用可能なキャプションを知的に活用することで自動的に生成されたものである。また、我々の手法によって合成された説明の質を検証するため、ユーザー調査を実施した。定量的な評価により、説明からの追加的な教師信号が、回答を正当化する洞察をもたらすテキスト文を生成するだけでなく、回答予測の性能向上にも寄与することを示した。提案モデルは、VQA v2データセットにおいて、既存の最先端手法を明確な差で上回っている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

VQA-E：視覚的質問に対する回答の説明、拡張および強化 | 記事 | HyperAI超神経