HyperAI

代码已成为智能体时代中进行推理与行动的精确且可执行的媒介。然而，当前的研究进展主要集中在以语言为中心的任务上，如程序生成与调试，而以视觉为中心的编程仍处于未充分探索的状态。受人类通过草图进行推理的启发，我们提出将SVG代码作为紧凑、可解释且可执行的视觉表征形式。为此，我们引入了VCode——一个将多模态理解重构为代码生成任务的基准测试：给定一张图像，模型需生成能够保留符号语义、供下游推理使用的SVG代码。VCode涵盖三个领域：通用常识理解（MM-Vet）、专业学科知识（MMMU）以及以视觉为中心的感知任务（CV-Bench）。为评估符号保真度，我们提出CodeVQA这一新型评估协议：由一个策略模型在渲染后的SVG上回答问题，正确回答表明模型成功保持了原始符号语义。实证研究表明，当前前沿的视觉语言模型（VLMs）在生成忠实SVG代码方面仍面临显著挑战，暴露出语言中心与视觉中心编程之间长期存在的差距。为弥合这一差距，我们提出VCoder——一种代理式框架，从两个维度增强VLMs的能力：（i）带修订的思考（Thinking with Revision），通过迭代分析差异并逐步优化SVG代码；（ii）带视觉工具的行动（Acting with Visual Tools），利用检测器与解析器提供超越模型内在能力的结构化提示，如物体、形状和文本信息。在多个基准测试中，尽管具备强大推理能力的前沿VLMs整体表现良好，但在专业领域知识和三维推理方面仍存在明显局限。VCoder相较表现最佳的Claude-4-Opus模型，实现了12.3分的综合性能提升。人类实验进一步表明，无论是人类还是VLMs在处理渲染后的SVG时表现均有所下降，但其结果的一致性凸显了符号化视觉表征的巨大潜力。VCode基准与代码已开源，获取地址为：https://github.com/CSU-JPG/VCode。

VCode：一个以SVG作为符号化视觉表示的多模态编码基准

Kevin Qinghong Lin Yuhao Zheng Hangyu Ran Dantong Zhu Dongxing Mao Linjie Li Philip Torr Alex Jinpeng Wang

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

VCode：一个以SVG作为符号化视觉表示的多模态编码基准

Kevin Qinghong Lin Yuhao Zheng Hangyu Ran Dantong Zhu Dongxing Mao Linjie Li Philip Torr Alex Jinpeng Wang

摘要

用 AI 构建 AI

Hyper Newsletters