11 天前

大规模生成式视觉-语言模型的组合性探究

Teli Ma, Rong Li, Junwei Liang
大规模生成式视觉-语言模型的组合性探究
摘要

随着大型语言模型(LLMs)的成功,众多生成式视觉-语言模型(Generative Vision-Language Models, GVLMs)通过多模态指令微调得以构建。然而,GVLMs在多模态组合推理能力方面的表现仍缺乏充分探索。本文系统考察了当前用于评估GVLM组合性的评价指标(如VisualGPTScore等)及主流基准数据集。我们发现现有基准数据集存在语法层面的偏差(syntactical bias),而这一偏差可被GVLM强大的语言能力所利用,导致VisualGPTScore等指标无法有效反映模型的真实组合推理能力。为应对这一问题,我们首先提出一种名为SyntaxBias Score的新指标,利用大语言模型量化此类语法偏差的程度,从而为偏差缓解提供依据。随后,我们引入一项具有挑战性的新任务,用以评估GVLM在面对固有语法正确性倾向时的鲁棒性。基于去偏后的数据集与新任务,我们构建了一个全新的基准,命名为语法去偏基准(SyntActically DE-biased benchmark, SADE)。本研究提供了一个面向GVLM组合性能力的无偏基准,为该方向的后续研究奠定了可靠基础。相关代码与数据集已开源,详见:https://github.com/TeleeMa/SADE。

大规模生成式视觉-语言模型的组合性探究 | 最新论文 | HyperAI超神经