11 天前

大规模生成式视觉-语言模型的组合性探究

Teli Ma, Rong Li, Junwei Liang

摘要

随着大型语言模型（LLMs）的成功，众多生成式视觉-语言模型（Generative Vision-Language Models, GVLMs）通过多模态指令微调得以构建。然而，GVLMs在多模态组合推理能力方面的表现仍缺乏充分探索。本文系统考察了当前用于评估GVLM组合性的评价指标（如VisualGPTScore等）及主流基准数据集。我们发现现有基准数据集存在语法层面的偏差（syntactical bias），而这一偏差可被GVLM强大的语言能力所利用，导致VisualGPTScore等指标无法有效反映模型的真实组合推理能力。为应对这一问题，我们首先提出一种名为SyntaxBias Score的新指标，利用大语言模型量化此类语法偏差的程度，从而为偏差缓解提供依据。随后，我们引入一项具有挑战性的新任务，用以评估GVLM在面对固有语法正确性倾向时的鲁棒性。基于去偏后的数据集与新任务，我们构建了一个全新的基准，命名为语法去偏基准（SyntActically DE-biased benchmark, SADE）。本研究提供了一个面向GVLM组合性能力的无偏基准，为该方向的后续研究奠定了可靠基础。相关代码与数据集已开源，详见：https://github.com/TeleeMa/SADE。