HyperAIHyperAI

Command Palette

Search for a command to run...

大规模生成式视觉-语言模型的组合性探究

Teli Ma Rong Li Junwei Liang

摘要

随着大型语言模型(LLMs)的成功,众多生成式视觉-语言模型(Generative Vision-Language Models, GVLMs)通过多模态指令微调得以构建。然而,GVLMs在多模态组合推理能力方面的表现仍缺乏充分探索。本文系统考察了当前用于评估GVLM组合性的评价指标(如VisualGPTScore等)及主流基准数据集。我们发现现有基准数据集存在语法层面的偏差(syntactical bias),而这一偏差可被GVLM强大的语言能力所利用,导致VisualGPTScore等指标无法有效反映模型的真实组合推理能力。为应对这一问题,我们首先提出一种名为SyntaxBias Score的新指标,利用大语言模型量化此类语法偏差的程度,从而为偏差缓解提供依据。随后,我们引入一项具有挑战性的新任务,用以评估GVLM在面对固有语法正确性倾向时的鲁棒性。基于去偏后的数据集与新任务,我们构建了一个全新的基准,命名为语法去偏基准(SyntActically DE-biased benchmark, SADE)。本研究提供了一个面向GVLM组合性能力的无偏基准,为该方向的后续研究奠定了可靠基础。相关代码与数据集已开源,详见:https://github.com/TeleeMa/SADE


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
大规模生成式视觉-语言模型的组合性探究 | 论文 | HyperAI超神经