HyperAI

チュートリアルの紹介

このチュートリアルは、PaintsUndo のワンクリック実行デモです。関連する環境と依存関係がインストールされており、クローンを作成してワンクリックで開始できます。

PaintsUndo は、人間の絵画動作をシミュレートできる基本モデルであり、将来の AI モデルが人間のアーティストの実際のニーズをより適切に満たせるようにすることを目的としています。このプロジェクトは、画像を入力として受け取り、その画像の一連の描画を出力するモデルファミリを提供します。モデルは、描画プロセス中の人間の動作をシミュレートします。これには、スケッチ、インク入力、シェーディング、シェーディング、変形、左右反転、カラーカーブ調整、レイヤーの表示/非表示の変更、さらには描画プロセス中の全体的なアイデアの変更が含まれますが、これらに限定されません。。「Paints-Undo」という名前は、AI ペイントソフトウェアで「Undo」ボタン (通常は Ctrl+Z) を複数回押したときのようなモデルの出力の類似性に由来しています。

このプロジェクトでは現在、シングルフレームモデルとマルチフレームモデルの2つのモデルをリリースしています。

Paints_undo_single_frame
ペイント_アンドゥ_マルチ_フレーム

シングルフレームモデルは、画像と画像を入力として受け取り、画像を出力します。

アートワークは常に 1000 枚の手描きで作成でき、描画の順序は 0 から 999 までの整数であると仮定します。 0 で表される順序は完成した最終アートワークであり、999 は真っ白なキャンバスに描かれた最初のストロークです。このモデルは、「元に戻す」(または Ctrl+Z) モデルとして理解できます。
最終画像を入力し、「Ctrl+Z」の回数を指定して「Ctrl+Z」を押すと、モデルは対応する回数だけペイントプロセスのスクリーンショットを生成します。選択した回数が 100 の場合、この画像上で「Ctrl+Z」を 100 回シミュレートし、「Ctrl+Z」100 回後のスクリーンショットを取得することを意味します。

マルチフレームモデルは 2 つの画像を入力として受け取り、2 つの入力画像間の 16 個の中間フレームを出力します。

単一フレームモデルと比較すると、2 つの画像の差は小さくなりますが、速度も大幅に遅くなり、ランダム性も低くなります。
16 フレーム画像の生成に限定されます。

このプロジェクトのビルド方法では、デフォルトの方法はこれらを一緒に使用することです。まず、シングルフレームモデルを使用して約 5 ～ 7 回推論して 5 ～ 7 個の「キーフレーム」を取得し、次にマルチフレームモデルを使用してこれらのキーフレームを「補間」し、実際に比較的長いビデオを生成します。最終的には通常 100 枚程度の中間画像が得られます。

理論的には、このシステムはさまざまな方法で使用でき、無限に長いビデオを提供することもできますが、現在の実践では、最終フレーム数が約 100 ～ 500 の場合に効果的に機能します。

このチュートリアルでは、リソースとして単一の RTX 5090 カードを使用します。

エフェクト表示

実行方法（コンテナ起動後、初期化に10秒程度かかり、その後以下の操作を行います）

1. コンテナを複製して起動した後、API をブラウザにコピーします

2. 使用手順

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

単一フレームモデルの出力

モデルの合計出力

パラメータの説明

「操作ステップ」: 出力キーフレームの順序を選択できます。選択した順序が大きいほど、生成される画像は元の画像に近づきます。
「ステージ 1 シード」: キーフレーム生成用のシードをランダムに選択できます。
「ステップ数」: フレームあたりのモデルの実行ステップ数を選択できます。
「CFG Scale」: 生成される画像のランダム性を制御できます。値が小さいほど、生成される画像のランダム性が高くなります。
「ネガティブプロンプト」: ネガティブな単語を入力すると、生成された画像にネガティブな単語が含まれる状況を軽減できます。

ビデオの生成

パラメータの説明

「プロンプト」: 生成される画像の品質と内容を向上させるために、肯定的なプロンプトの言葉を入力します。
「ステージ 2 シード」: 画像生成用のシードをランダムに選択できます。
「CFG Scale」: 生成される画像のランダム性を制御できます。値が小さいほど、生成される画像のランダム性が高くなります。
「サンプリングステップ」: サンプリングによる反復ステップの数を変更できます。値が大きいほど、生成される画像はより正確になります。
「FPS」: 生成されるビデオのフレームレートを変更できます。デフォルトは 4 フレームです。つまり、ビデオには 1 秒あたり 4 つの生成された画像が含まれます。

引用情報

このプロジェクトの引用情報は次のとおりです。

@Misc{paintsundo,
  author = {Paints-Undo Team},
  title  = {Paints-Undo GitHub Page},
  year   = {2024},
}
@article{paintsalter,
    author = {Zhang, Lvmin and Yan, Chuan and Guo, Yuwei and Xing, Jinbo and Agrawala, Maneesh},
    title = {Generating Past and Future in Digital Painting Processes},
    journal = {ACM Transactions on Graphics (SIGGRAPH 2025)},
    year = {2025},
    volume = {44},
    number = {4},
    articleno = {127},
    numpages = {13},
}

Paints-Undo 1 枚の画像から絵画を生成するプロセス全体のデモ

チュートリアルの紹介

エフェクト表示