Command Palette
Search for a command to run...
RealChart2Code:基于真实数据与多任务评估推进图表到代码生成研究
RealChart2Code:基于真实数据与多任务评估推进图表到代码生成研究
摘要
视觉语言模型(VLMs)在多个领域的代码生成任务中已展现出卓越能力。然而,其在基于真实数据复现复杂多面板可视化图表方面的能力,目前尚缺乏系统评估。为填补这一空白,我们推出了 RealChart2Code——一个全新的大规模基准测试集,包含超过 2,800 个基于真实数据集构建的实例,并涵盖具有明确分析意图的任务。尤为关键的是,RealChart2Code 是首个系统性评估从大规模原始数据生成图表能力,并在多轮对话场景中评估迭代式代码优化效果的基准测试。我们对 14 种主流 VLMs 在 RealChart2Code 上的全面评估结果显示,相较于传统简化基准,这些模型在复杂图表结构和真实数据场景下的性能显著下降,暴露出其在处理高复杂度可视化任务时的明显不足。进一步分析表明,专有模型与开源权重模型之间存在显著的性能差距;即使是最先进的 VLMs,也往往难以准确复现 intricate(复杂)的多面板图表。上述发现深刻揭示了当前 VLMs 在可视化代码生成方面的局限性,并为未来研究指明了方向。我们已公开该基准测试及相关代码,访问地址为:https://github.com/Speakn0w/RealChart2Code。
一句话总结
来自中国科学技术大学、清华大学、香港中文大学、中国科学院大学、中科院自动化所等机构的研究人员推出了 RealChart2Code,这是一个大规模基准测试,旨在评估视觉 - 语言模型(VLMs)利用真实数据生成复杂多面板图表代码的能力。该工作独特地评估了对话场景下的迭代优化能力,揭示了专有模型与开源权重模型之间存在显著的性能差距。
主要贡献
- 本文介绍了 RealChart2Code,这是一个包含 2,800 多个实例的大规模基准测试,基于真实数据集,旨在系统评估从原始数据生成图表代码的能力,以及在多轮对话中进行迭代代码优化的能力。
- 对该基准测试中 14 个领先的视觉 - 语言模型的综合评估显示,与较简单的基准测试相比,其性能显著下降,突显了模型在处理复杂图表结构和真实数据时的具体困难。
- 分析揭示了专有模型与开源权重模型之间存在巨大的性能差距,证实即使是最先进的系统也往往无法准确复现复杂的多面板图表。
引言
视觉 - 语言模型(VLMs)正越来越多地被用于生成数据可视化代码,这一能力使用户能够从静态图像中恢复和编辑逻辑。然而,现有的基准测试依赖于合成数据或简单的单面板图表,无法评估模型如何处理源自真实大规模数据集的复杂多面板布局。为了填补这一空白,作者推出了 RealChart2Code,这是一个包含 2,800 多个基于真实世界数据实例的大规模基准测试,用于评估对话场景下的初始代码生成和迭代优化。他们对 14 个领先 VLM 的评估显示,虽然模型在简单任务上表现出色,但在处理复杂结构和真实数据时存在显著困难,暴露了专有系统与开源权重系统之间巨大的性能差距。
数据集
RealChart2Code 数据集概览
作者推出了 RealChart2Code,这是一个旨在评估视觉 - 语言模型在复杂、真实世界的“图表转代码”生成任务上的基准测试。该数据集超越了简单的合成图表,利用源自真实数据源的复杂多面板布局和高信息密度来挑战模型。
-
数据集构成与来源
- 基础部分由从 Kaggle 收集的开源数据集组成,严格遵守科学研究许可协议。
- 筛选过程始于超过 8,000 个候选数据集,包含 10 万多个文件和 300 亿行数据。
- 通过两阶段过滤流程,将候选池缩减为 1,036 个高质量数据集,最终收集了 3,271 个原始数据文件,包含约 8.6 亿行数据。
- 数据涵盖金融、健康、研究和技术等八个高层领域,涉及 35 个细分子主题。
-
每个子集的关键细节
- 图表复现 (1,016 个实例):模型仅接收图表图像,必须在无法访问底层数据的情况下生成代码以复现该图表。
- 图表重制 (1,016 个实例):模型同时获得图表图像和相应的原始 CSV 数据文件,以生成代码。
- 图表优化 (864 个实例):此子集涉及多轮对话,模型必须根据用户反馈调试和修改代码,以修复“有缺陷”图表中的错误。
- 该基准测试包含 50 种不同的图表类型和 7 种高层可视化意图,确保涵盖常见图表(如条形图)和专门技术(如桑基图)的混合。
-
数据使用与处理
- 作者从精选数据集中构建了 1,016 个独特的可视化场景,作为复现和重制任务的基础。
- 真值代码由五名精通 Python 的专家团队手动实现,使用 Matplotlib、pandas 和 NumPy,以确保高质量、符合习惯且可执行的解决方案。
- 对于优化子集,作者在真值代码中手动注入了各种错误,包括视觉样式问题、数据映射错误和错误的图表类型。
- 该数据集用于评估模型感知视觉细节、解读数据以及执行迭代代码编辑的能力。
-
裁剪、元数据与质量控制
- 未提及特定的图像裁剪策略;重点在于保留多面板布局和复合图表的完整复杂性。
- 元数据构建严格遵循数据模式,确保提示中的列名、数据类型和文件路径与提供的 CSV 文件完全匹配。
- 实施了严格的多阶段质量控制协议,包括在沙盒环境中进行自动化执行检查,以及由独立专家进行的视觉保真度审查。
- 对于优化任务,采用三重验证策略,确保注入的错误在渲染图像中清晰可见,且修正指令在逻辑上可解。
方法
作者将“图表转代码”任务定义为条件代码生成问题。形式上,给定源图表图像 V 和伴随的提示 P,大型语言模型(LLM),记为 F(⋅),必须生成可执行的代码片段 C。该代码必须渲染出能够准确复现 V 的视觉和结构元素的可视化,同时遵守 P 中的任何要求。该任务被表述为 C=F(V,P)。
该框架评估了模型在此核心任务的三种不同变体上的表现,如下图所示。

第一种变体是图表复现,代表了基础的“图表转代码”任务,模型必须仅从图像中逆向工程出可视化。这种设置衡量了核心的视觉到代码的转换能力,无需外部数据支持。第二种变体是图表重制,为模型提供图表图像、原始数据和元数据。这评估了利用大规模真实世界数据源生成正确图表的能力。对于此任务,“数据模式一致性”指标被替换为“数据对齐”,后者执行代码级验证以确保计算正确性,而非视觉相似性。
第三种变体是图表优化,要求模型通过多轮对话修正具有预定义错误的图表。这评估了根据用户指令进行迭代调试的能力。该过程涉及分析图表图像、解读具体的优化指令,并生成修正后的代码以产生优化后的图表。模型必须识别图表结构,理解包括错误在内的当前状态,并严格按照指令应用修正,同时保持所有其他视觉属性。
实验
- 在 RealChart2Code 基准测试上对 14 个 LLM 的评估证实,虽然像 Claude-4.5-Opus 这样的专有模型在性能上领先,但在复杂的真实世界可视化任务上,与开源模型相比仍存在显著的能力差距。
- 跨基准测试分析表明,在较简单的现有基准测试中获得高分并不能保证在 RealChart2Code 上取得成功,揭示了“复杂性差距”,即当面对真实数据驱动的场景时,模型性能会急剧下降。
- 可靠性测试证实,所提出的多智能体评判框架实现了高度的一致性,并与人类专家评估高度一致,确保了视觉质量评估的稳健性和区分度。
- 错误分析识别出不同的失败模式:开源权重模型经常遭受语法幻觉和空间推理缺陷的困扰,而专有模型主要在与数据映射的准确性以及在迭代优化过程中保持全局一致性方面存在困难。
- 案例研究突显了模型在处理分层布局、复合图表结构和全局画布缩放方面的系统性弱点,表明当前模型缺乏专业级可视化生成所需的高级空间规划和语义分组能力。