HyperAI超神经

首页资讯论文教程数据集百科 SOTA LLM 模型天梯 GPU 天梯顶会

中文

HyperAI超神经

Paints-Undo 一张图生成绘画全过程 Demo

在线运行此教程

Paints-Undo 只需一张图，分分钟「拆解」成 25 秒的绘制过程视频

教程简介

该教程为 PaintsUndo 一键运行 Demo，相关环境和依赖已经安装完毕，一键克隆启动即可体验。

PaintsUndo 是一个可以模拟人类绘画行为的基本模型，旨在为人类提供绘画行为的基础模型，同时希望未来的 AI 模型能够更好地符合人类艺术家的现实需求。该项目提供了一系列模型，这些模型将图像作为输入，然后输出该图像的绘制序列。该模型模拟了人类在绘图过程中的行为，包括但不限于草图、墨迹、着色、阴影、变换、左右翻转、颜色曲线调整、改变图层的可见性，甚至在绘图过程中改变整体构思。「Paints-Undo」这个名字的灵感来自于模型的输出看起来像在 AI 绘画软件中多次按下「撤消」按钮（通常是 Ctrl+Z）的相似性。

项目目前发布了两个模型：单帧模型和多帧模型。

paints_undo_single_frame
paints_undo_multi_frame

单帧模型将一个图像和一个作为输入，并输出一个图像。

假设始终可以通过 1000 次人工绘画创建图稿，并且绘画的次序是一个从 0 到 999 的整数。 0 代表的次序是完成的最终艺术品，999 是在纯白色画布上绘制的第一个笔触。可以将此模型理解为「撤消」（或称为 Ctrl+Z）模型。
输入最终图像，并指示要「Ctrl+Z」的次数，按下这些「Ctrl+Z」后，模型将生成相应次数的绘画过程截图。如果选择的次数是 100，则表示您要在此图像上模拟「Ctrl+Z」100 次，以获得 100 次「Ctrl+Z」之后的截图。

多帧模型将两个图像作为输入，并在两个输入图像之间输出 16 个中间帧。

相较于单帧模型，两张图像的差别更小，但速度也慢得多，随机性更小。
仅限于生成 16 帧的图像。

在本项目的生成方法中，默认方法是将它们一起使用。首先使用单帧模型推断大约 5-7 次，得到 5-7 个「关键帧」，然后使用多帧模型对这些关键帧进行「插值」生成，以实际生成一个相对较长的视频。最终一般能够得到 100 张左右的中间图。

从理论上讲，该系统可以以多种方式使用，甚至可以提供无限长的视频，但在目前实践中，当最终帧数约为 100-500 时，效果较好。

效果展示

单帧模型输出

总模型输出

生成视频

运行方法（启动容器后需要约 10s 初始化，之后再进行如下操作）

1. 克隆并启动容器后，复制 API 到浏览器中

2. 按照下图顺序操作，即可进行模型体验

3. 参数调整

大家也可以修改模型的基础设置和参数来调整效果。

「Operation Steps」：可以选择输出的关键帧次序，选择的次序越大，生成的图像越相似于原图。
「Stage 1 Seed」：可以随机选择种子进行关键帧生成。
「Steps」：可以选择每帧的模型运行步数。
「CFG Scale」：可以控制生成图像的随机性，该值越小生成的图像随机性越高。
「Nagative Prompt」：填写负面词，可以缓解生成图像中包含这些负面词的情况。

「Prompts」：填写正面提示词，可以提升生成图像的质量和内容。
「Stage 2 Seed」：可以随机选择种子进行图像生成。
「CFG Scale」：可以控制生成图像的随机性，该值越小生成的图像随机性越高。
「Sampling steps」：可以改变采样经过的迭代步数，该值越大生成的图像越精确。
「FPS」：可以改变生成视频的帧率，默认为 4 帧，即每秒视频包含四张生成的图像。

探讨交流

🖌️ 如果大家看到优质项目，欢迎后台留言推荐！另外，我们还建立了教程交流群，欢迎小伙伴们扫码备注【教程交流】入群探讨各类技术问题、分享应用效果↓