2 个月前
StructChart:关于视觉图表理解的模式、度量和增强方法
Xia, Renqiu ; Peng, Haoyang ; Ye, Hancheng ; Li, Mingsheng ; Yan, Xiangchao ; Ye, Peng ; Shi, Botian ; Qiao, Yu ; Yan, Junchi ; Zhang, Bo

摘要
图表在各个科学领域的文献中十分常见,能够向读者传达丰富且易于获取的信息。目前与图表相关的任务主要集中在两个方面:一是从视觉图表中提取信息的图表感知,二是基于提取的数据(例如以表格形式)进行图表推理。本文介绍了一种名为StructChart的新框架,该框架利用结构化三元组表示(STR)实现了一个统一且标签高效的图表感知和推理方法,该方法不仅适用于不同的下游任务,而且超越了同行研究中特别关注的问题回答任务。具体而言,StructChart首先将图表数据从线性化的CSV格式重新表述为STR,这可以有效地缩小图表感知与推理之间的任务差距。接着,我们提出了一种面向结构化图表的表示度量(SCRM),用于定量评估图表感知任务的性能。为了增强训练效果,我们进一步探索了大型语言模型(LLMs)在增加图表视觉样式和统计信息多样性方面的潜力。大量实验表明,在各种与图表相关的任务中,统一的图表感知-推理范式展示了其有效性和潜力,推动了图表理解的前沿发展。