17 天前

LaKo:通过后期知识到文本注入实现知识驱动的视觉问答

Zhuo Chen, Yufeng Huang, Jiaoyan Chen, Yuxia Geng, Yin Fang, Jeff Pan, Ningyu Zhang, Wen Zhang
LaKo:通过后期知识到文本注入实现知识驱动的视觉问答
摘要

视觉问答(Visual Question Answering, VQA)通常需要理解视觉概念与语言语义,这一过程依赖于外部知识。现有大多数方法主要利用预训练语言模型或非结构化文本,但这些资源中的知识往往不完整且存在噪声。另一些方法则倾向于采用知识图谱(Knowledge Graphs, KGs),其通常包含丰富而结构化的知识,然而相关研究仍处于初步阶段。本文提出一种基于知识驱动的VQA方法——LaKo(Late Knowledge-to-text Injection),通过后期知识到文本的注入机制实现外部知识的有效融合。具体而言,该方法将知识图谱中的三元组转换为文本形式,并设计了一种后期注入机制以实现知识融合。最终,将VQA任务建模为文本生成问题,采用高效的编码器-解码器框架,在OKVQA数据集上取得了当前最优的性能表现。