3 个月前
REVEAL:基于多源多模态知识记忆的检索增强型视觉-语言预训练
Ziniu Hu, Ahmet Iscen, Chen Sun, Zirui Wang, Kai-Wei Chang, Yizhou Sun, Cordelia Schmid, David A. Ross, Alireza Fathi

摘要
本文提出了一种端到端的检索增强型视觉语言模型——REVEAL,该模型能够将世界知识编码至大规模记忆中,并通过检索该记忆来回答知识密集型问题。REVEAL由四个关键组件构成:记忆模块、编码器、检索器和生成器。大规模记忆模块通过统一的编码器,将多种多模态世界知识(如图像-文本对、问答对、知识图谱三元组等)进行编码存储。检索器负责从记忆中找出与查询最相关的知识条目,生成器则将检索到的知识与输入查询进行融合,生成最终输出。本方法的一个关键创新在于,记忆模块、编码器、检索器和生成器均在海量数据上进行端到端的预训练。此外,该方法能够整合多样化的多模态知识源,实验证明这一特性带来了显著的性能提升。实验结果表明,REVEAL在视觉问答(Visual Question Answering)和图像字幕生成(Image Captioning)任务上均达到了当前最优水平。