8 个月前

Fangyu Liu‡‡∗§ Julian Martin Eisenschlos∗∗ Francesco Piccinno∗ Syrine Krichene∗ Chenxi Pang∗ Kenton Lee∗ Mandar Joshi∗ Wenhu Chen∗ Nigel Collier∗ Yasemin Altun∗

摘要

视觉语言，如图表和曲线图，在人类世界中无处不在。理解图表和曲线图需要强大的推理能力。先前的最先进（SOTA）模型至少需要数万个训练样本，且其推理能力仍然有限，尤其是在处理复杂的自然语言查询时。本文提出了首个单次提示的视觉语言推理解决方案。我们将视觉语言推理的挑战分解为两个步骤：(1) 图表到文本的转换，以及 (2) 对转换后的文本进行推理。该方法的关键是一个模态转换模块，命名为 DePlot，它将图表或曲线图的图像转换为线性化的表格。DePlot 的输出可以直接用于提示预训练的大规模语言模型（LLM），利用 LLM 的少量样本推理能力。为了获得 DePlot，我们通过建立统一的任务格式和评估指标对图表到表格的任务进行了标准化，并在此任务上端到端地训练了 DePlot。然后，DePlot 可以与 LLM 无缝集成，以即插即用的方式使用。与在超过 28,000 个数据点上微调的最先进模型相比，仅需一次提示的 DePlot+LLM 在图表问答任务中的人类编写查询上实现了 24.0% 的性能提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Fangyu Liu‡‡∗§ Julian Martin Eisenschlos∗∗ Francesco Piccinno∗ Syrine Krichene∗ Chenxi Pang∗ Kenton Lee∗ Mandar Joshi∗ Wenhu Chen∗ Nigel Collier∗ Yasemin Altun∗

摘要

视觉语言，如图表和曲线图，在人类世界中无处不在。理解图表和曲线图需要强大的推理能力。先前的最先进（SOTA）模型至少需要数万个训练样本，且其推理能力仍然有限，尤其是在处理复杂的自然语言查询时。本文提出了首个单次提示的视觉语言推理解决方案。我们将视觉语言推理的挑战分解为两个步骤：(1) 图表到文本的转换，以及 (2) 对转换后的文本进行推理。该方法的关键是一个模态转换模块，命名为 DePlot，它将图表或曲线图的图像转换为线性化的表格。DePlot 的输出可以直接用于提示预训练的大规模语言模型（LLM），利用 LLM 的少量样本推理能力。为了获得 DePlot，我们通过建立统一的任务格式和评估指标对图表到表格的任务进行了标准化，并在此任务上端到端地训练了 DePlot。然后，DePlot 可以与 LLM 无缝集成，以即插即用的方式使用。与在超过 28,000 个数据点上微调的最先进模型相比，仅需一次提示的 DePlot+LLM 在图表问答任务中的人类编写查询上实现了 24.0% 的性能提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供