HyperAIHyperAI

Command Palette

Search for a command to run...

1 年前

SketchAgent:语言驱动的连续草图生成

Yael Vinker Tamar Rott Shaham Kristine Zheng Alex Zhao Judith E Fan Antonio Torralba

一键部署铅笔素描风格文生图 shouxin

20 小时 RTX 5090 算力资源,仅 $1 (原价 $7)
跳转至 Notebook

摘要

草图作为一种多功能工具,用于外化思想,实现跨越各个学科的快速探索和视觉交流。尽管人工系统在内容创作和人机交互方面推动了重大进展,但捕捉人类草图的动态和抽象特性仍然具有挑战性。在本工作中,我们引入了 SketchAgent,这是一种语言驱动的、连续的草图生成方法,使用户能够通过动态的对话式交互创建、修改和完善草图。我们的方法无需训练或微调,而是利用现有多模态大语言模型(LLMs)的序列特性和丰富的先验知识。我们提出了一种直观的草图语言,并通过上下文示例引入到模型中,使其能够使用基于字符串的动作“绘制”。这些动作被处理为矢量图形,然后渲染到像素画布上以生成草图,该草图可再次访问以进行后续任务。通过逐笔绘制,我们的代理捕捉到了草图中固有的演变和动态特性。我们展示了 SketchAgent 能够从多样化的提示中生成草图,参与对话驱动的绘画,并与人类用户进行有意义的协作。

一句话总结

作者推出了 SketchAgent,这是一个无需训练的、语言驱动的序列式草图生成系统。该系统利用现成的多模态大语言模型(LLM)和上下文草图语言,将基于字符串的操作转换为在像素画布上渲染的矢量图形。通过多样化的提示和对话驱动交互,该系统展示了用户可以逐笔生成、修改和细化草图,同时捕捉人类手绘的动态特性。

核心贡献

  • 提出 SketchAgent,这是一个无需训练的框架,利用现成的多模态大语言模型进行序列式草图生成。系统将上下文草图语言翻译为基于字符串的命令,从而在像素画布上逐笔渲染矢量图形。
  • 建立了一种对话交互范式,使用户能够通过自然语言提示迭代地创建、修改和细化视觉内容。每次对话回合都会触发一次独立的绘图动作,从而在无需微调模型的情况下促进自适应的人机协作。
  • 通过定性评估证明,生成的草图捕捉了自发性手绘特质,同时避免了传统基于代码或像素空间方法的僵硬外观。该系统成功处理了多样化的文本提示,并支持实时的对话驱动绘图会话。

引言

草图绘制是快速构思、跨学科沟通和视觉问题解决的基础方法,使 AI 辅助草图成为增强人类创造力的有力工具。现有的生成方法要么依赖有限的人类手绘数据集,要么依赖同时优化所有笔触的视觉-语言模型,这剥夺了草图模仿人类绘画的迭代式、逐笔推进的特性。此外,提示大语言模型输出矢量代码通常会生成僵硬、机械精确的视觉效果,缺乏自发性手绘特质,且在细粒度空间编辑方面表现不佳。为弥补这些不足,作者利用现成的多模态 LLM 创建了 SketchAgent,这是一个由自定义空间语言和基于坐标的网格画布引导的序列式草图系统。通过结合上下文学习与思维链提示,Agent 生成外观自然、具有语义结构的笔触序列,在无需额外模型训练的情况下支持实时协作细化。

数据集

  • 数据集构成与来源: 作者汇编了一个源自受控网络研究及自动化生成管线的数据集。该数据集包含三个主要类别:纯人类手绘草图、由 SketchAgent 生成的 AI 草图,以及通过人类与 Agent 交互创建的协作草图。

  • 各子集关键细节:

    • 人类(独立):每位参与者完成 10 幅草图,包含两个热身概念和八个主要概念,以随机顺序呈现。
    • 协作:用户与 Agent 交替在共享画布上添加笔触,人类笔触渲染为绿色,Agent 笔触渲染为粉色。
    • AI/定量:包含每个评估类别的 10 幅随机生成草图,用于性能基准测试。
  • 数据用途与训练: 作者使用该数据集训练 SketchAgent、提供上下文学习示例并运行定量评估。系统提示指导模型将复杂概念分解为序列笔触,而用户提示则定义目标概念与预期输出格式。该数据直接支持自动化基准测试与人类受试者协作研究。

  • 处理与元数据构建: 所有草图均映射至 400 乘 400 像素的画布,并转换为归一化网格坐标系。每个笔触被参数化为贝塞尔曲线,由起点、终点、至少两个中间航点以及用于控制路径曲率的 0 到 1 范围内的对应 t 值定义。复杂对象被系统性地分解为多个相连的笔触,概念序列在每次会话中随机排列以消除顺序偏差。

方法

作者采用了一种语言驱动的序列式草图生成框架,该框架支持动态的对话交互,且无需训练或微调。该方法的核心是一个冻结的多模态大语言模型(LLM),被称为 SketchAgent,它通过结构化管线从自然语言指令生成草图。整体架构如图所示,Agent 处理系统提示、用户提示和空白画布,以生成一系列绘图动作。系统提示为 Agent 提供上下文指令,包括其作为专家画家的角色设定,以及对草图语言和基于网格的画布的介绍。用户提示指定了目标任务(例如“画一条鲨鱼”),并包含一个简单草图的上下文示例,以确保输出符合所需格式。

画布被设计为 50×5050 \times 5050×50 的网格,每个单元格由唯一的坐标对 (x,y)(x, y)(x,y) 标识,使 Agent 能够通过空间定位动作与环境交互。这种基于网格的表示法解决了多模态 LLM 在空间推理方面的局限性,后者通常无法将视觉理解转化为精确的基于坐标的绘图命令。Agent 通过生成笔触的文本序列进行响应,每个笔触定义为网格上的一组 (x,y)(x, y)(x,y) 坐标序列,格式为 <points>x1y1, x15y20, ...</points>

为确保草图平滑且外观自然,系统通过将三次贝塞尔曲线拟合到采样点来处理 Agent 的坐标序列。每个笔触表示为曲线上 mmm 个采样点的集合,并附带定义曲线参数化的对应 ttt 值。贝塞尔曲线的控制点通过求解最小二乘优化问题确定,该问题旨在最小化拟合曲线与采样点之间的误差。优化目标表示为:

P=argminPAPBP = \mathrm{argmin}_P ||AP - B||P=argminP∣∣APB∣∣

其中 ARm×4A \in \mathbb{R}^{m \times 4}ARm×4 包含在指定 tjt_jtj 值处求值的三次贝塞尔基函数,BRm×2B \in \mathbb{R}^{m \times 2}BRm×2 包含采样的 (xj,yj)(x_j, y_j)(xj,yj) 坐标。对于拟合误差较高的序列,曲线会被递归分割。该方法还支持较低阶的曲线,包括二次和线性段,以适配各类笔触。生成的参数曲线通过 SVG 渲染至画布,从而产出基于矢量的草图。

该框架支持迭代与协作式草图绘制。生成笔触序列后,渲染后的画布可结合更新后的用户提示反馈至模型,以实现编辑。该流程引入了一个停止 token,</s{j}></s\{j\}></s{j}>,允许 Agent 在指定笔触处暂停,从而支持人工干预。用户绘制的笔触通过多个 ttt 值进行采样,并转换为 Agent 的坐标格式,随后追加至 Agent 的序列中以继续生成。这种双向交互促进了无缝的 Agent 与人类协作,Agent 与人类通过对话界面共同创作草图。

实验

评估设置涵盖文本条件生成、序列式逐笔绘制、交互式人机协作以及基于聊天的编辑任务。这些实验验证了 Agent 能够生成流畅且带有语义标注的草图,高度模拟人类绘画的推进过程,在迭代编辑中成功执行空间推理,并产出与纯人类独立绘制同等识别率的协作输出。定性方面,该方法通过生成自然、富有表现力的笔触,同时保持逻辑结构连贯性,始终优于僵化的直接提示基线。总体而言,研究结果表明,利用多模态 LLM 先验知识能够构建高度可适应的交互式草图系统,该系统既能独立生成,也能开展有意义的人机协作,尽管目前在处理高度复杂或抽象概念时仍存在局限。

作者分析了该方法在不同类别中生成草图的性能,并与不同模型及基线对比了识别准确率与拟人程度。结果表明,所提方法实现了较高的识别率,性能接近人类手绘草图,且生成的草图被感知为比直接提示方法更具拟人化特征。该方法在协作草图绘制中也展现出鲁棒性,其中人类与 Agent 的贡献对于实现高可识别性均不可或缺。该方法实现了较高的草图识别准确率,在多样化的类别中逼近人类水平。用户研究表明,与直接提示生成的草图相比,该方法生成的草图被感知为更具拟人化特征。协作草图绘制结果表明,人类与 Agent 的贡献对于创建可识别的草图均至关重要。

作者使用 CLIP 零样本分类器将草图生成方法与人类草图及其他模型进行对比,以评估其性能。结果表明,该方法生成的草图具有较高的识别准确率,性能逼近人类水平,且生成的草图被感知为比直接提示方法更具拟人化特征。该方法还支持协作草图绘制,其中人类与 Agent 的贡献对于创建可识别的草图均必不可少。在表现最佳的模型上,该方法实现了较高的草图识别准确率,逼近人类水平。在双选项强制选择研究中,用户更偏好该方法生成的草图,认为其比直接提示生成的草图更具拟人化特征。协作草图绘制结果表明,人类与 Agent 的贡献对于产出可识别的草图均不可或缺。

作者分析了该方法在不同类别中生成草图的性能,对比了识别准确率与拟人化特质。结果表明,该方法实现了较高的识别率,尤其在默认模型上表现突出,且生成的草图比直接提示方法更具拟人化特征。草图展现出渐进式、有意义的逐笔演化过程,与人类绘画过程相似。该方法实现了较高的识别准确率,其默认模型优于其他模型,并逼近人类水平。与直接提示生成的草图相比,该方法生成的草图被感知为更具拟人化特征,尽管仍略逊于真实人类手绘。草图绘制过程是序列式且富有意义的,每个笔触都为概念识别的逐步演进做出贡献,这与人类绘画行为相似。

实验评估了用户与 Agent 之间的协作草图绘制,对比了完整协作草图与仅包含 Agent 生成或用户生成笔触的局部草图的识别率。结果表明,完整协作草图实现了较高的识别率,显著高于局部草图,这表明用户与 Agent 均提供了识别所必需的关键信息。局部草图的识别率较低且相近,暗示任何一方单独均无法生成可识别的草图。与局部草图相比,协作草图实现了较高的识别率。仅由 Agent 或用户单独生成的局部草图识别率较低。人类与 Agent 的贡献对于产出可识别的协作草图均必不可少。

实验对比了 QuickDraw 数据集中人类生成草图的笔触数量与 SketchAgent 生成草图的笔触数量。结果表明,人类草图的笔触数量通常较少,峰值为一笔,而 SketchAgent 的草图分布范围更广,峰值为五笔,并延伸至更高的笔触数量。视觉示例表明,人类草图通常使用单一连续线条,而 SketchAgent 的草图由多个笔触组成,结构更多样。人类草图主要使用单笔,而 SketchAgent 的草图使用更多笔触且分布更广。SketchAgent 的草图峰值为五笔,表明其平均笔触数量高于人类草图。人类草图通常由单一连续线条构成,而 SketchAgent 的草图由多个独立笔触组成。

评估通过识别准确率与拟人程度测试,将所提草图生成方法与人类画作及基线模型进行对比,并结合协作草图绘制设置与笔触数量分析。结果表明,该方法生成的草图具有极高的可识别性,性能高度逼近人类水平,且被感知为比直接提示方法更加自然。实验进一步验证了成功的协作草图绘制需要用户与 Agent 提供有意义的贡献,因为局部输入无法实现清晰识别。此外,序列式笔触生成过程反映了人类绘画的推进规律,尽管与人类艺术家倾向于使用简洁单笔的习惯相比,Agent 通常采用分布更广泛的笔触策略。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供