Command Palette
Search for a command to run...
Kevin Qinghong Lin Yuhao Zheng Hangyu Ran Dantong Zhu Dongxing Mao Linjie Li Philip Torr Alex Jinpeng Wang

摘要
代码已成为智能体时代中进行推理与行动的精确且可执行的媒介。然而,当前的研究进展主要集中在以语言为中心的任务上,如程序生成与调试,而以视觉为中心的编程仍处于未充分探索的状态。受人类通过草图进行推理的启发,我们提出将SVG代码作为紧凑、可解释且可执行的视觉表征形式。为此,我们引入了VCode——一个将多模态理解重构为代码生成任务的基准测试:给定一张图像,模型需生成能够保留符号语义、供下游推理使用的SVG代码。VCode涵盖三个领域:通用常识理解(MM-Vet)、专业学科知识(MMMU)以及以视觉为中心的感知任务(CV-Bench)。为评估符号保真度,我们提出CodeVQA这一新型评估协议:由一个策略模型在渲染后的SVG上回答问题,正确回答表明模型成功保持了原始符号语义。实证研究表明,当前前沿的视觉语言模型(VLMs)在生成忠实SVG代码方面仍面临显著挑战,暴露出语言中心与视觉中心编程之间长期存在的差距。为弥合这一差距,我们提出VCoder——一种代理式框架,从两个维度增强VLMs的能力:(i)带修订的思考(Thinking with Revision),通过迭代分析差异并逐步优化SVG代码;(ii)带视觉工具的行动(Acting with Visual Tools),利用检测器与解析器提供超越模型内在能力的结构化提示,如物体、形状和文本信息。在多个基准测试中,尽管具备强大推理能力的前沿VLMs整体表现良好,但在专业领域知识和三维推理方面仍存在明显局限。VCoder相较表现最佳的Claude-4-Opus模型,实现了12.3分的综合性能提升。人类实验进一步表明,无论是人类还是VLMs在处理渲染后的SVG时表现均有所下降,但其结果的一致性凸显了符号化视觉表征的巨大潜力。VCode基准与代码已开源,获取地址为:https://github.com/CSU-JPG/VCode。