Command Palette
Search for a command to run...
Chengzhi Xu Yuyang Wang Lai Wei Lichao Sun Weiran Huang

摘要
近日,多模态大语言模型(Multimodal Large Language Models, MLLMs)因其强大的视觉理解能力而受到越来越多的研究关注。尽管这些模型在各种视觉任务上取得了令人印象深刻的结果,但在图表转代码生成任务上的表现仍不尽如人意。该任务要求MLLMs生成可执行的代码以重现给定的图表,不仅需要精确的视觉理解,还需要将视觉元素准确地转换为结构化的代码。直接提示MLLMs执行这一复杂任务通常会得到不满意的结果。为了解决这一挑战,我们提出了一种基于结构化指令的迭代精炼方法——{ChartIR}。首先,我们将任务分为两部分:视觉理解和代码翻译。为了完成视觉理解部分,我们设计了两种类型的结构化指令:描述指令和差异指令。描述指令用于捕捉参考图表中的视觉元素,而差异指令则用于表征参考图表与生成图表之间的差异。这些指令有效地将视觉特征转化为语言表示,从而促进了后续的代码翻译过程。其次,我们将整体图表生成流程分解为两个阶段:初始代码生成和迭代精炼,使得最终输出能够逐步优化。实验结果表明,与其它方法相比,我们的方法在开源模型Qwen2-VL和闭源模型GPT-4o上均表现出色。