説明可能な人工知能(XAI)における重要な課題の一つは、現実世界のデータに対して推論および説明が可能な知能システムの構築であり、これにより信頼性の高い意思決定を支援することにある。近年の研究では、信頼性の高い視覚質問応答(VQA)システムの実現に向け、ユーザーにとって使いやすく検証可能な説明の提供が重要であることが認識されている。本論文では、データおよび手法の両面から説明可能なVQAの促進を目指す。まず、少数の学習サンプルで視覚的質問の解決に至る背後にある推論プロセスのマルチモーダル説明を生成することを目的とした、新しい標準マルチモーダル説明(SME)データセットと、VQAにおける少数ショットマルチモーダル説明(FS-MEVQA)タスクを提案する。本SMEデータセットは、質問、画像、回答、およびマルチモーダル説明から構成される1,028,230件のサンプルを含み、従来のMEVQAおよびFS-MEVQAの両分野における研究を促進する。本研究の知見によれば、これは標準的な英語に基づき、追加の視覚的グランドイングトークンを含む、初めての大規模な言語-視覚統合型説明を備えたデータセットである。次に、マルチモーダルオープンワールドツールを備えた大規模言語モデル(LLM)エージェントを基盤とした、学習不要なマルチモーダル説明エージェント(MEAgent)手法を提案する。MEAgentは、わずかN(=16)個の学習サンプルからマルチモーダル説明を学習可能であり、オープンワールド能力を活用してテストサンプルに対するFS-MEVQAを実行できる。本SMEデータセット上で、言語品質評価指標、視覚的検出指標、視覚的帰属指標を用いた包括的な実験結果から、本手法がFS-MEVQAにおいて優れた性能を発揮することが示された。本研究のコードおよびデータは、https://github.com/LivXue/FS-MEVQA にて公開されている。