11 天前

用于视觉对话的高效注意力机制,可处理多个输入之间的全部交互

Van-Quang Nguyen, Masanori Suganuma, Takayuki Okatani
用于视觉对话的高效注意力机制,可处理多个输入之间的全部交互
摘要

近年来,在视觉与语言任务的研究中,设计一种能够有效处理两种模态间交互关系的注意力机制一直是核心关注点。近年来,Transformer架构已被拓展并应用于多项双模态任务,取得了令人鼓舞的成果。在视觉对话(visual dialog)任务中,需要考虑三个或更多输入之间的交互关系,例如图像、问题以及对话历史,甚至其各个对话组件之间的交互。本文提出了一种名为“多输入轻量级Transformer”(Light-weight Transformer for Many Inputs, LTMI)的神经网络架构,能够高效处理视觉对话中多个输入之间的全部交互。该架构在结构上与Transformer类似,并采用相同的注意力计算机制,但参数量极少,同时仍具备足够的表征能力以满足任务需求。在标准视觉对话设置下,基于所提出的注意力模块构建的一层,其参数量不足传统Transformer扩展结构的十分之一。在VisDial数据集上的实验结果验证了该方法的有效性:在VisDial v1.0数据集上,单模型的最优NDCG得分从57.59提升至60.92,集成模型的得分从64.47提升至66.53,进一步通过额外微调后,得分甚至达到74.88。本文的实现代码已开源,地址为:https://github.com/davidnvq/visdial。

用于视觉对话的高效注意力机制,可处理多个输入之间的全部交互 | 最新论文 | HyperAI超神经