
要約
本稿では、「Visual Dialog」(視覚対話)というタスクを解くための確率的枠組みを提案する。このタスクを解決するには、視覚モダリティ、言語モダリティおよび常識的知識の理解と推論が求められる。これまで、視覚情報と言語表現を統合する多モーダルディープラーニング技術のバリエーションを用いたさまざまなアーキテクチャが提案されてきた。しかし、本研究では、このタスクを解く上で不確実性の発生源を理解し分析することが極めて重要であると考える。本研究のアプローチは、不確実性の推定を可能にするとともに、多様な回答生成を支援する。提案手法は、画像、質問、会話履歴に対する確率的表現を提供する確率的表現モジュール、確率的表現をもとに候補となる回答の多様な潜在表現を獲得するモジュール、そして不確実性を最小化する適切な回答を選択する不確実性表現モジュールから構成される。さらに、最先端手法との比較、詳細なアブレーション解析、および不確実性の可視化を通じて、モデルの包括的な評価を行った。本稿で提案する確率的枠組みを用いることで、性能が向上するとともに、解釈性も高い視覚対話システムの実現が可能となった。