HyperAIHyperAI

Command Palette

Search for a command to run...

変分因果推論ネットワークを用いた説明的視覚質問応答

Changsheng Xu Shengsheng Qian Dizhan Xue

概要

説明付き視覚質問応答(Explanatory Visual Question Answering; EVQA)は、近年提案されたマルチモーダル推論タスクであり、視覚的質問に対する回答を生成するとともに、その推論プロセスのためのマルチモーダルな説明を生成することを要請する。従来の視覚質問応答(Visual Question Answering; VQA)が回答の生成に特化しているのに対し、EVQAは推論モデルの説明可能性と信頼性を高めるために、ユーザーにやさしい説明を提供することを目的としている。しかし、既存のEVQA手法は通常、回答と説明を別々に予測するため、両者の因果的関連性を無視している。さらに、質問の語彙、視覚領域、説明のトークンの間にある複雑な関係性も軽視している。これらの課題に対処するため、本研究では予測された回答と説明の間の因果的関連性を確立し、マルチモーダル間の関係を捉えることで論理的な説明を生成するための変分因果推論ネットワーク(Variational Causal Inference Network; VCIN)を提案する。まず、視覚・言語事前学習モデルを用いて視覚特徴と質問特徴を抽出する。次に、マルチモーダル説明ゲーティングトランスフォーマーを提案し、マルチモーダル間の関係を構築し、論理的な説明を生成する。最後に、ターゲットとなる因果構造を確立し、回答を予測するための変分因果推論を導入する。包括的な実験により、VCINが最先端のEVQA手法を上回る優れた性能を発揮することが示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています