Command Palette

Search for a command to run...

2 个月前

基于大型语言模型的符号图形编程

Yamei Chen Haoquan Zhang Yangyi Huang Zeju Qiu Kaipeng Zhang Yandong Wen Weiyang Liu

基于大型语言模型的符号图形编程

摘要

大型语言模型(LLMs)在程序合成方面表现出色,但其生成可符号化图形程序(Symbolic Graphics Programs, SGPs)并精确渲染为视觉内容的能力仍鲜有深入研究。本文聚焦于符号化图形编程任务,即根据自然语言描述生成一个SGP。该任务不仅本身具有挑战性,同时也为探究LLMs如何理解视觉世界提供了独特视角——通过引导模型生成由SGP渲染出的图像,来考察其跨模态理解能力。在各类SGP中,本文专注于可缩放矢量图形(Scalable Vector Graphics, SVG)。我们首先系统评估了LLMs生成SGP的能力。为此,我们提出了SGP-GenBench,一个全面的基准测试集,涵盖对象保真度、场景保真度以及组合性(属性绑定、空间关系、数感)等多个维度。在SGP-GenBench上的实验表明,前沿的闭源模型显著优于开源模型,且模型性能与通用编程能力呈良好相关性。针对这一性能差距,我们致力于提升LLMs生成SGP的能力。为此,我们提出一种基于可验证奖励的强化学习(Reinforcement Learning, RL)方法:通过一个格式有效性门控机制确保生成的SVG具有可渲染性;同时引入跨模态奖励机制,利用强大的视觉编码器(如用于文本-图像对齐的SigLIP,以及用于图像-图像对齐的DINO)实现文本描述与渲染图像之间的精准对齐。该方法应用于Qwen-2.5-7B模型后,显著提升了SVG生成的质量与语义准确性,性能已达到与前沿系统相当的水平。我们进一步分析了训练过程中的动态变化,发现强化学习促使模型实现:(i)将对象更精细地分解为可控的图形基元;(ii)引入更具上下文感知的细节,从而增强场景整体的一致性与合理性。综上所述,我们的研究结果表明,符号化图形编程为理解跨模态对齐(cross-modal grounding)提供了一个精确且可解释的分析视角。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供