15 天前

基于概率框架的视觉对话求解

Badri N. Patro, Anupriy, Vinay P. Namboodiri
基于概率框架的视觉对话求解
摘要

本文提出了一种概率框架,用于解决“视觉对话”(Visual Dialog)任务。该任务的求解需要对视觉模态、语言模态以及常识知识进行综合推理与理解。现有方法多采用多种多模态深度学习架构,通过融合视觉与语言表征来应对该任务。然而,我们认为,准确识别并分析该任务中不确定性来源至关重要。本文所提方法不仅能够估计不确定性,还能促进答案的多样化生成。该框架由三个核心模块构成:首先,一个概率表征模块,用于生成图像、问题及对话历史的联合概率表示;其次,一个潜在空间多样性生成模块,基于上述概率表示,生成多样化的候选答案潜在表征;最后,一个不确定性表征模块,用于根据不确定性评估选择最优答案,从而实现不确定性最小化。我们在多个层面对该模型进行了全面评估,包括详尽的消融实验、与当前最优方法的对比分析,以及对不确定性分布的可视化,这些分析有助于深入理解模型的工作机制。实验结果表明,基于所提出的概率框架,我们构建的视觉对话系统在性能上有所提升,同时具备更强的可解释性。

基于概率框架的视觉对话求解 | 最新论文 | HyperAI超神经