2 个月前

VLIS:单模态语言模型引导多模态语言生成

Jiwan Chung; Youngjae Yu
VLIS:单模态语言模型引导多模态语言生成
摘要

多模态语言生成是一个迅速发展的领域,它利用了语言和视觉之间的协同效应。然而,现有的视觉-语言模型在需要复杂语言理解的任务中面临挑战。为了解决这一问题,我们提出了一种新的框架——视觉-语言模型作为重要性采样权重(VLIS)。该框架结合了视觉-语言模型的视觉条件能力与单模态纯文本语言模型的语言理解能力,而无需进一步训练。它从视觉-语言模型中提取每个图像和文本的点互信息,并将该值作为重要性采样权重来调整纯文本模型中的词元概率。VLIS 在多种任务上提升了视觉-语言模型的表现,包括常识理解(WHOOPS、OK-VQA 和 ScienceQA)以及复杂文本生成(Concadia、Image Paragraph Captioning 和 ROCStories)。我们的研究结果表明,VLIS 为多模态语言生成提供了一个有前景的新方向。

VLIS:单模态语言模型引导多模态语言生成 | 最新论文 | HyperAI超神经