Paints-Undo 1 枚の画像から絵画を生成するプロセス全体のデモ

Paints-Undo に必要な写真は 1 枚だけで、数分でペイント プロセスの 25 秒のビデオに「分解」できます。

チュートリアルの紹介

このチュートリアルは、PaintsUndo のワンクリック実行デモです。関連する環境と依存関係がインストールされており、クローンを作成してワンクリックで開始できます。

PaintsUndo は、人間の絵画動作をシミュレートできる基本モデルであり、将来の AI モデルが人間のアーティストの実際のニーズをより適切に満たせるようにすることを目的としています。このプロジェクトは、画像を入力として受け取り、その画像の一連の描画を出力するモデル ファミリを提供します。モデルは、描画プロセス中の人間の動作をシミュレートします。これには、スケッチ、インク入力、シェーディング、シェーディング、変形、左右反転、カラー カーブ調整、レイヤーの表示/非表示の変更、さらには描画プロセス中の全体的なアイデアの変更が含まれますが、これらに限定されません。 。 「Paints-Undo」という名前は、AI ペイント ソフトウェアで「Undo」ボタン (通常は Ctrl+Z) を複数回押したときのようなモデルの出力の類似性に由来しています。

このプロジェクトでは現在、シングルフレームモデルとマルチフレームモデルの2つのモデルをリリースしています。

  • Paints_undo_single_frame
  • ペイント_アンドゥ_マルチ_フレーム

シングルフレーム モデルは、画像と画像を入力として受け取り、画像を出力します。

  • アートワークは常に 1000 枚の手描きで作成でき、描画の順序は 0 から 999 までの整数であると仮定します。 0 で表される順序は完成した最終アートワークであり、999 は真っ白なキャンバスに描かれた最初のストロークです。このモデルは、「元に戻す」(または Ctrl+Z) モデルとして理解できます。
  • 最終画像を入力し、「Ctrl+Z」の回数を指定して「Ctrl+Z」を押すと、モデルは対応する回数だけペイントプロセスのスクリーンショットを生成します。選択した回数が 100 の場合、この画像上で「Ctrl+Z」を 100 回シミュレートし、「Ctrl+Z」100 回後のスクリーンショットを取得することを意味します。

マルチフレーム モデルは 2 つの画像を入力として受け取り、2 つの入力画像間の 16 個の中間フレームを出力します。

  • 単一フレーム モデルと比較すると、2 つの画像の差は小さくなりますが、速度も大幅に遅くなり、ランダム性も低くなります。
  • 16 フレーム画像の生成に限定されます。

このプロジェクトのビルド方法では、デフォルトの方法はこれらを一緒に使用することです。まず、シングルフレーム モデルを使用して約 5 ~ 7 回推論して 5 ~ 7 個の「キー フレーム」を取得し、次にマルチフレーム モデルを使用してこれらのキー フレームを「補間」し、実際に比較的長いビデオを生成します。最終的には通常 100 枚程度の中間画像が得られます。

理論的には、このシステムはさまざまな方法で使用でき、無限に長いビデオを提供することもできますが、現在の実践では、最終フレーム数が約 100 ~ 500 の場合に効果的に機能します。

エフェクト表示

単一フレームモデルの出力

モデルの合計出力

ビデオの生成

実行方法(コンテナ起動後、初期化に10秒程度かかり、その後以下の操作を行います)

1. コンテナを複製して起動した後、API をブラウザにコピーします

2. 以下の図の順序でモデルを体験してください。

3.パラメータ調整

モデルの基本設定やパラメータを変更して効果を調整することもできます。

  • 「操作ステップ」: 出力キーフレームの順序を選択できます。選択した順序が大きいほど、生成される画像は元の画像に近づきます。
  • 「ステージ 1 シード」: キーフレーム生成用のシードをランダムに選択できます。
  • 「ステップ数」: フレームあたりのモデルの実行ステップ数を選択できます。
  • 「CFG Scale」: 生成される画像のランダム性を制御できます。値が小さいほど、生成される画像のランダム性が高くなります。
  • 「ネガティブプロンプト」: ネガティブな単語を入力すると、生成された画像にネガティブな単語が含まれる状況を軽減できます。
  • 「プロンプト」: 生成される画像の品質と内容を向上させるために、肯定的なプロンプトの言葉を入力します。
  • 「ステージ 2 シード」: 画像生成用のシードをランダムに選択できます。
  • 「CFG Scale」: 生成される画像のランダム性を制御できます。値が小さいほど、生成される画像のランダム性が高くなります。
  • 「サンプリング ステップ」: サンプリングによる反復ステップの数を変更できます。値が大きいほど、生成される画像はより正確になります。
  • 「FPS」: 生成されるビデオのフレーム レートを変更できます。デフォルトは 4 フレームです。つまり、ビデオには 1 秒あたり 4 つの生成された画像が含まれます。

話し合ってコミュニケーションする

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しましたので、お友達がコードをスキャンしてメモを作成し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりするためにグループに参加することを歓迎します↓。