6ヶ月前

概要

説明付き視覚質問応答（Explanatory Visual Question Answering; EVQA）は、近年提案されたマルチモーダル推論タスクであり、視覚的質問に対する回答を生成するとともに、その推論プロセスのためのマルチモーダルな説明を生成することを要請する。従来の視覚質問応答（Visual Question Answering; VQA）が回答の生成に特化しているのに対し、EVQAは推論モデルの説明可能性と信頼性を高めるために、ユーザーにやさしい説明を提供することを目的としている。しかし、既存のEVQA手法は通常、回答と説明を別々に予測するため、両者の因果的関連性を無視している。さらに、質問の語彙、視覚領域、説明のトークンの間にある複雑な関係性も軽視している。これらの課題に対処するため、本研究では予測された回答と説明の間の因果的関連性を確立し、マルチモーダル間の関係を捉えることで論理的な説明を生成するための変分因果推論ネットワーク（Variational Causal Inference Network; VCIN）を提案する。まず、視覚・言語事前学習モデルを用いて視覚特徴と質問特徴を抽出する。次に、マルチモーダル説明ゲーティングトランスフォーマーを提案し、マルチモーダル間の関係を構築し、論理的な説明を生成する。最後に、ターゲットとなる因果構造を確立し、回答を予測するための変分因果推論を導入する。包括的な実験により、VCINが最先端のEVQA手法を上回る優れた性能を発揮することが示された。

ソースPDF コードを表示