2 个月前

基于图表的推理:从大型语言模型向视觉-语言模型迁移能力

Carbune, Victor ; Mansoor, Hassan ; Liu, Fangyu ; Aralikatte, Rahul ; Baechler, Gilles ; Chen, Jindong ; Sharma, Abhanshu
基于图表的推理:从大型语言模型向视觉-语言模型迁移能力
摘要

视觉-语言模型(VLMs)在多模态任务上的性能不断提高。然而,较小的VLMs在推理能力方面仍然存在局限性,而大型语言模型(LLMs)的推理能力已经得到了显著改进。我们提出了一种将LLMs的能力迁移到VLMs的技术。在最近引入的ChartQA数据集上,当应用于由Chen等人(2023)提出的PaLI3-5B VLM时,我们的方法取得了最先进的性能,同时也在PlotQA和FigureQA任务上实现了显著提升。首先,我们通过继续预训练阶段并使用Liu等人(2023)改进的图表到表格转换任务来提高图表表示的质量。然后,我们建议构建一个比原始训练集大20倍的数据集。为了增强通用推理能力和改进数值运算,我们利用图表的表格表示合成了推理轨迹。最后,我们的模型使用Hsieh等人(2023)引入的多任务损失函数进行了微调。我们的变体ChartPaLI-5B在不使用上游OCR系统的情况下,其性能超过了甚至比其大10倍的模型如PaLIX-55B,并且与PaLI3-5B基线相比保持了相同的推理时间。当进一步使用简单的思维程序提示对理由进行细化时(Chen等人,2023),我们的模型超越了最近推出的Gemini Ultra和GPT-4V。

基于图表的推理:从大型语言模型向视觉-语言模型迁移能力 | 最新论文 | HyperAI超神经