2 个月前

基于大型语言模型的符号图形编程

Yamei Chen Haoquan Zhang Yangyi Huang Zeju Qiu Kaipeng Zhang Yandong Wen Weiyang Liu

摘要

大型语言模型（LLMs）在程序合成方面表现出色，但其生成可符号化图形程序（Symbolic Graphics Programs, SGPs）并精确渲染为视觉内容的能力仍鲜有深入研究。本文聚焦于符号化图形编程任务，即根据自然语言描述生成一个SGP。该任务不仅本身具有挑战性，同时也为探究LLMs如何理解视觉世界提供了独特视角——通过引导模型生成由SGP渲染出的图像，来考察其跨模态理解能力。在各类SGP中，本文专注于可缩放矢量图形（Scalable Vector Graphics, SVG）。我们首先系统评估了LLMs生成SGP的能力。为此，我们提出了SGP-GenBench，一个全面的基准测试集，涵盖对象保真度、场景保真度以及组合性（属性绑定、空间关系、数感）等多个维度。在SGP-GenBench上的实验表明，前沿的闭源模型显著优于开源模型，且模型性能与通用编程能力呈良好相关性。针对这一性能差距，我们致力于提升LLMs生成SGP的能力。为此，我们提出一种基于可验证奖励的强化学习（Reinforcement Learning, RL）方法：通过一个格式有效性门控机制确保生成的SVG具有可渲染性；同时引入跨模态奖励机制，利用强大的视觉编码器（如用于文本-图像对齐的SigLIP，以及用于图像-图像对齐的DINO）实现文本描述与渲染图像之间的精准对齐。该方法应用于Qwen-2.5-7B模型后，显著提升了SVG生成的质量与语义准确性，性能已达到与前沿系统相当的水平。我们进一步分析了训练过程中的动态变化，发现强化学习促使模型实现：（i）将对象更精细地分解为可控的图形基元；（ii）引入更具上下文感知的细节，从而增强场景整体的一致性与合理性。综上所述，我们的研究结果表明，符号化图形编程为理解跨模态对齐（cross-modal grounding）提供了一个精确且可解释的分析视角。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

基于大型语言模型的符号图形编程

Yamei Chen Haoquan Zhang Yangyi Huang Zeju Qiu Kaipeng Zhang Yandong Wen Weiyang Liu

摘要

用 AI 构建 AI

Hyper Newsletters