HyperAIHyperAI

Command Palette

Search for a command to run...

草图绘图的神经表示

David Ha Douglas Eck

Sketch-RNN: 一种用于矢量绘图的生成模型

20 小时 RTX 5090 算力资源,仅 $1 (原价 $7)
跳转至 Notebook

摘要

我们提出了 sketch-rnn,这是一种循环神经网络(RNN),能够构建常见对象的基于笔画的绘图。该模型在包含许多不同类别的人类绘制图像的数据集上进行训练。我们概述了条件和非条件草图生成的框架,并描述了用于生成矢量格式连贯草图绘图的新鲁棒训练方法。

一句话总结

本文作者提出了 sketch-rnn,这是一种循环神经网络,在跨多个类别的人类手绘图像数据集上进行训练。该模型采用稳健的条件与非条件训练框架,能够生成连贯的、基于笔触的矢量格式常见物体草图。

核心贡献

  • 本文引入了 sketch-rnn,这是一种在大规模人类手绘矢量草图数据集上训练的循环神经网络,用于生成基于笔触的常见物体绘图。该架构为条件与非条件草图生成提供了统一的框架。
  • 建立了稳健的训练流程以稳定矢量生成过程并确保输出合成的连贯性。这些方法支持直接以输入草图为条件,并促进模型潜在空间中跨物体类别的平滑插值。
  • 发布了一个公开可用的人类手绘矢量草图数据集,以解决生成式矢量绘图研究中以往的数据稀缺问题。该模型能够生成多样化的、特定类别的设计,支持创意设计教育与草图训练应用。

引言

尽管神经网络通过基于像素的模型(如 GAN)和自回归架构彻底改变了图像生成,但它们很少能捕捉人类视觉交流中顺序与抽象的本质。以往的矢量图像合成方法多依赖传统统计方法,或侧重于模仿照片而非学习生成性笔触模式,且进展长期受限于大规模公开数据集的匮乏。作者利用循环神经网络将手绘草图建模为笔触运动序列,并引入了一种用于无条件与条件矢量生成的稳健训练框架。通过探索模型的潜在空间以实现创造性插值,并发布大量开源数据集,作者为机器像人类一样学习与生成抽象视觉概念奠定了实用基础。

数据集

来源与构成: 作者使用来自 Quick, Draw! 在线游戏的矢量草图构建数据集,该游戏中参与者在 20 秒限制内绘制物体。该集合涵盖数百个类别,作者最初为实验选择了 75 个类别。

子集划分: 每个类别严格划分为 70,000 个训练样本、2,500 个验证样本和 2,500 个测试样本。

数据表示与处理: 草图被格式化为包含 5 元素向量的顺序列表。前两个元素记录相对于前一个点的 x 和 y 偏移量,最后三个元素构成一个指示笔状态的 one-hot 向量:绘制、抬起或结束草图。作者将起始坐标初始化为原点,并采用 epsilon 值为 2.0 的 Ramer-Douglas-Peucker 算法简化笔触。

归一化与使用: 由于原始记录使用像素尺寸,作者使用从训练集中导出的单一缩放因子对偏移值进行归一化,使其标准差达到 1。作者有意跳过零均值归一化,因为原始均值可忽略不计。该处理后的向量序列直接作为模型的输入。

方法

sketch-rnn 模型采用变分自编码器(VAE)框架,并结合专为生成基于笔触的矢量绘图而设计的循环神经网络架构。整体框架由编码器-解码器结构组成,其中编码器处理输入草图序列以生成潜在向量,解码器则基于该潜在表示生成新的草图序列。请参阅框架示意图以了解模型结构概览。

编码器是一个双向循环神经网络(RNN),用于处理输入草图序列 S={S1,S2,,SNs}S = \{S_1, S_2, \dots, S_{N_s}\}S={S1,S2,,SNs},其中每个 Si=(Δxi,Δyi,p1,p2,p3)S_i = (\Delta x_i, \Delta y_i, p_1, p_2, p_3)Si=(Δxi,Δyi,p1,p2,p3) 表示带有偏移坐标和笔状态的笔触。前向与后向 RNN 沿相反方向处理序列,在每个时间步生成隐藏状态 hFh^FhFhBh^BhB。来自两个方向的最终隐藏状态 h=hNsFh^- = h^F_{N_s}h=hNsFh+=h1Bh^+ = h^B_1h+=h1B 被拼接以形成组合表示 h=[hNsF;h1B]h = [h^F_{N_s}; h^B_1]h=[hNsF;h1B]。该表示随后通过全连接层计算潜在分布的均值 μ\muμ 与对数方差 σ^\hat{\sigma}σ^。潜在向量 zzz 从高斯分布 N(μ,σ2)N(\mu, \sigma^2)N(μ,σ2) 中采样得到,其中 σ=exp(σ^/2)\sigma = \exp(\hat{\sigma}/2)σ=exp(σ^/2),该采样得到的 zzz 作为解码器的初始状态。

解码器是一个单向 RNN,以自回归方式生成输出草图序列 SS'S。它在每个时间步接收潜在向量 zzz 与上一输出笔触 Si1S'_{i-1}Si1 作为输入。解码器 RNN 的隐藏状态由 zzz 初始化,初始笔状态由模型内部逻辑确定。在每一步中,解码器预测 (Δx,Δy)(\Delta x, \Delta y)(Δx,Δy) 偏移量的高斯混合模型(MoG)参数以及笔状态 p1,p2,p3p_1, p_2, p_3p1,p2,p3 的概率。输出从该分布中采样,过程持续至笔抬起(p1=0p_1 = 0p1=0)或达到最大序列长度。模型在训练过程中旨在重构输入草图序列,同时确保潜在空间遵循先验分布。

训练目标为两项损失函数的加权和:重构损失 LRL_RLR 与 Kullback-Leibler 散度损失 LKLL_{KL}LKL。重构损失由两部分组成:LsL_sLs 使用高斯混合模型衡量偏移项 (Δx,Δy)(\Delta x, \Delta y)(Δx,Δy) 的对数似然,LpL_pLp 使用分类分布衡量笔状态项 p1,p2,p3p_1, p_2, p_3p1,p2,p3 的对数似然。KL 散度损失衡量学习到的潜在分布与标准高斯先验之间的差异。总损失为 Loss=LR+wKLLKLLoss = L_R + w_{KL} L_{KL}Loss=LR+wKLLKL,其中 wKLw_{KL}wKL 是控制重构与正则化权衡的超参数。为提高训练稳定性,KL 损失项在训练过程中采用从低值开始并随时间递增的调度策略进行退火。这种退火机制有助于模型首先专注于最小化重构误差,随后再施加潜在先验约束,从而提升整体性能。

实验

通过在单类别与多类别 QuickDraw 数据集上训练不同 KL 损失权重的模型,对 Sketch-RNN 进行了评估,以检验正则化如何影响草图生成与潜在空间组织。关于条件重构、潜在插值与向量运算的实验表明,该架构成功捕捉到了高层概念特征,实现了平滑的形态转换与有意义的绘图类比。定性分析显示,较高的 KL 正则化通过过滤噪声或不一致的笔触细节,持续生成更连贯且具备语义结构的输出;而较低的正则化则以牺牲概念清晰度为代价,优先保证笔触的精确匹配。这些发现表明,精细平衡重构保真度与潜在正则化对于学习可解释且可操作的草图表示至关重要。

作者在不同数据集上评估了 Sketch-RNN 模型,通过调整 KL 损失权重的不同设置,观察重构损失与 KL 损失项之间的权衡。结果表明,较高 KL 损失权重的模型能够生成更连贯的重构结果与更平滑的潜在空间插值,而较低权重的模型则倾向于产生不连贯的输出与意义较弱的插值。模型执行草图绘图类比与多草图插值的能力,证明了潜在空间在概念特征层面的组织性。与较低权重的模型相比,较高 KL 损失权重的模型产生更连贯的重构结果与更平滑的潜在空间插值。模型可通过操作潜在向量执行草图绘图类比,从而实现身体或动物部位等概念特征的添加或移除。生成草图的重构质量与连贯性受 KL 损失权重的影响远大于仅依靠重构损失,较低的 KL 损失权重会导致输出不连贯。

作者通过系统性地调整 KL 损失权重,在多个数据集上评估了 Sketch-RNN 模型,以验证其对潜在空间组织与生成连贯性的影响。实验表明,较高的 KL 权重能够生成结构合理的重构结果与平滑的潜在插值,而较低的权重则导致碎片化且意义较弱的输出。定性上,模型通过操作潜在向量添加或移除概念特征,成功执行了草图类比与多草图插值。这些发现确立了 KL 损失权重在塑造有意义潜在空间中的主导作用,使模型能够有效捕捉并重组高层视觉概念。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供