11 天前

多视角注意力网络用于视觉对话

Sungjin Park, Taesun Whang, Yeochan Yoon, Heuiseok Lim
多视角注意力网络用于视觉对话
摘要

视觉对话(Visual Dialog)是一项具有挑战性的跨模态任务,要求模型基于给定图像对一系列具有视觉语境的问答进行连贯回应。为有效解决该任务,模型需具备对多种模态输入(如问题、对话历史和图像)的高层次理解能力。具体而言,智能体必须能够:1)准确识别问题的语义意图;2)在异构模态输入之间对齐与问题相关联的文本与视觉内容。本文提出多视角注意力网络(Multi-View Attention Network, MVAN),该模型基于注意力机制,从多个视角对异构输入进行建模。MVAN通过两个互补的模块——主题聚合(Topic Aggregation)与上下文匹配(Context Matching),有效从对话历史中捕捉与问题相关的信息,并通过一系列顺序对齐过程(即模态对齐,Modality Alignment)构建多模态表示。在VisDial v1.0数据集上的实验结果表明,所提出的模型在所有评估指标上均优于先前的最先进方法,验证了其有效性。

多视角注意力网络用于视觉对话 | 最新论文 | HyperAI超神经