Yiying Yang Wei Cheng Sijin Chen Xianfang Zeng Fukun Yin Jiaxu Zhang Liao Wang Gang Yu Xingjun Ma Yu-Gang Jiang

摘要
可缩放矢量图形(Scalable Vector Graphics,简称 SVG)是一种重要的图像格式,因其具备分辨率无关性和可编辑性,被广泛应用于图形设计领域。在生成高质量 SVG 的研究方面,人工智能生成内容(AIGC)领域的设计师与研究人员持续关注。然而,现有方法要么生成结构松散、计算开销巨大的输出,要么仅限于生成结构过于简化的单色图标。为实现高质量、复杂结构 SVG 的生成,本文提出 OmniSVG——一种统一的端到端多模态 SVG 生成框架,该框架利用预训练视觉-语言模型(Vision-Language Models, VLMs)实现多模态输入下的 SVG 自动生成。通过将 SVG 命令与坐标参数化为离散标记(tokens),OmniSVG 实现了结构逻辑与底层几何信息的解耦,在保证复杂 SVG 结构表达能力的同时,显著提升了训练效率。为进一步推动 SVG 合成技术的发展,我们构建了 MMSVG-2M 数据集,该数据集包含两百万个标注丰富的 SVG 资产,并配套制定了标准化的条件化 SVG 生成任务评估协议。大量实验结果表明,OmniSVG 在多项指标上优于现有方法,展现出其在专业 SVG 设计工作流中集成应用的巨大潜力。