Paints-Undo 一张图生成绘画全过程 Demo

Paints-Undo 只需一张图,分分钟「拆解」成 25 秒的绘制过程视频

教程简介

该教程为 PaintsUndo 一键运行 Demo,相关环境和依赖已经安装完毕,一键克隆启动即可体验。

PaintsUndo 是一个可以模拟人类绘画行为的基本模型,旨在为人类提供绘画行为的基础模型,同时希望未来的 AI 模型能够更好地符合人类艺术家的现实需求。该项目提供了一系列模型,这些模型将图像作为输入,然后输出该图像的绘制序列。该模型模拟了人类在绘图过程中的行为,包括但不限于草图、墨迹、着色、阴影、变换、左右翻转、颜色曲线调整、改变图层的可见性,甚至在绘图过程中改变整体构思。「Paints-Undo」这个名字的灵感来自于模型的输出看起来像在 AI 绘画软件中多次按下「撤消」按钮(通常是 Ctrl+Z)的相似性。

项目目前发布了两个模型:单帧模型和多帧模型。

  • paints_undo_single_frame
  • paints_undo_multi_frame

单帧模型将一个图像和一个作为输入,并输出一个图像。

  • 假设始终可以通过 1000 次人工绘画创建图稿,并且绘画的次序是一个从 0 到 999 的整数。 0 代表的次序是完成的最终艺术品,999 是在纯白色画布上绘制的第一个笔触。可以将此模型理解为「撤消」(或称为 Ctrl+Z)模型。
  • 输入最终图像,并指示要「Ctrl+Z」的次数,按下这些「Ctrl+Z」后,模型将生成相应次数的绘画过程截图。如果选择的次数是 100,则表示您要在此图像上模拟「Ctrl+Z」100 次,以获得 100 次「Ctrl+Z」之后的截图。

多帧模型将两个图像作为输入,并在两个输入图像之间输出 16 个中间帧。

  • 相较于单帧模型,两张图像的差别更小,但速度也慢得多,随机性更小。
  • 仅限于生成 16 帧的图像。

在本项目的生成方法中,默认方法是将它们一起使用。首先使用单帧模型推断大约 5-7 次,得到 5-7 个「关键帧」,然后使用多帧模型对这些关键帧进行「插值」生成,以实际生成一个相对较长的视频。最终一般能够得到 100 张左右的中间图。

从理论上讲,该系统可以以多种方式使用,甚至可以提供无限长的视频,但在目前实践中,当最终帧数约为 100-500 时,效果较好。

效果展示

单帧模型输出

总模型输出

生成视频

运行方法(启动容器后需要约 10s 初始化,之后再进行如下操作)

1. 克隆并启动容器后,复制 API 到浏览器中

2. 按照下图顺序操作,即可进行模型体验

3. 参数调整

大家也可以修改模型的基础设置和参数来调整效果。

  • 「Operation Steps」:可以选择输出的关键帧次序,选择的次序越大,生成的图像越相似于原图。
  • 「Stage 1 Seed」:可以随机选择种子进行关键帧生成。
  • 「Steps」:可以选择每帧的模型运行步数。
  • 「CFG Scale」:可以控制生成图像的随机性,该值越小生成的图像随机性越高。
  • 「Nagative Prompt」:填写负面词,可以缓解生成图像中包含这些负面词的情况。
  • 「Prompts」:填写正面提示词,可以提升生成图像的质量和内容。
  • 「Stage 2 Seed」:可以随机选择种子进行图像生成。
  • 「CFG Scale」:可以控制生成图像的随机性,该值越小生成的图像随机性越高。
  • 「Sampling steps」:可以改变采样经过的迭代步数,该值越大生成的图像越精确。
  • 「FPS」:可以改变生成视频的帧率,默认为 4 帧,即每秒视频包含四张生成的图像。

探讨交流

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【教程交流】入群探讨各类技术问题、分享应用效果↓