8 个月前

摘要

近日，多模态大语言模型（Multimodal Large Language Models, MLLMs）因其强大的视觉理解能力而受到越来越多的研究关注。尽管这些模型在各种视觉任务上取得了令人印象深刻的结果，但在图表转代码生成任务上的表现仍不尽如人意。该任务要求MLLMs生成可执行的代码以重现给定的图表，不仅需要精确的视觉理解，还需要将视觉元素准确地转换为结构化的代码。直接提示MLLMs执行这一复杂任务通常会得到不满意的结果。为了解决这一挑战，我们提出了一种基于结构化指令的迭代精炼方法——{ChartIR}。首先，我们将任务分为两部分：视觉理解和代码翻译。为了完成视觉理解部分，我们设计了两种类型的结构化指令：描述指令和差异指令。描述指令用于捕捉参考图表中的视觉元素，而差异指令则用于表征参考图表与生成图表之间的差异。这些指令有效地将视觉特征转化为语言表示，从而促进了后续的代码翻译过程。其次，我们将整体图表生成流程分解为两个阶段：初始代码生成和迭代精炼，使得最终输出能够逐步优化。实验结果表明，与其它方法相比，我们的方法在开源模型Qwen2-VL和闭源模型GPT-4o上均表现出色。

源 PDF