2 个月前
DePlot:通过图表到表格的转换实现一次性视觉语言推理
Liu, Fangyu ; Eisenschlos, Julian Martin ; Piccinno, Francesco ; Krichene, Syrine ; Pang, Chenxi ; Lee, Kenton ; Joshi, Mandar ; Chen, Wenhu ; Collier, Nigel ; Altun, Yasemin

摘要
视觉语言,如图表和曲线图,在人类世界中无处不在。理解图表和曲线图需要强大的推理能力。先前的最先进(SOTA)模型至少需要数万个训练样本,且其推理能力仍然有限,尤其是在处理复杂的自然语言查询时。本文提出了首个单次提示的视觉语言推理解决方案。我们将视觉语言推理的挑战分解为两个步骤:(1) 图表到文本的转换,以及 (2) 对转换后的文本进行推理。该方法的关键是一个模态转换模块,命名为 DePlot,它将图表或曲线图的图像转换为线性化的表格。DePlot 的输出可以直接用于提示预训练的大规模语言模型(LLM),利用 LLM 的少量样本推理能力。为了获得 DePlot,我们通过建立统一的任务格式和评估指标对图表到表格的任务进行了标准化,并在此任务上端到端地训练了 DePlot。然后,DePlot 可以与 LLM 无缝集成,以即插即用的方式使用。与在超过 28,000 个数据点上微调的最先进模型相比,仅需一次提示的 DePlot+LLM 在图表问答任务中的人类编写查询上实现了 24.0% 的性能提升。