💡 HiDiffusion: 事前トレーニングされた拡散モデルで高解像度の創造性と効率性を解き放つ

HiDiffusion の概要

HiDiffusion は、高解像度画像を生成する際の事前トレーニングされた拡散モデルの創造性と効率を向上させるために、Megvii Technology によって開発された革新的なフレームワークです。これは、トレーニングなしで事前トレーニング済み拡散モデルの解像度と速度を向上させる方法です。HiDiffusion をさまざまな事前トレーニング済み拡散モデルに適用することで、画像生成の解像度を 4096×4096 に高めるだけでなく、画像生成量も増加します。 1.5～6倍のスピードになります。この方法は、オブジェクトの重複と高い計算負荷の問題を解決するだけでなく、高解像度の画像を生成するタスクでも優れた結果を達成します。

このプロジェクトは、テキストから画像への変換、画像から画像への変換、画像の修復などのさまざまなタスクをサポートします。

エフェクト例

(より速く、より良い画像の詳細。)

(ControlNet および修復タスクの 2K の結果。)

利用手順

1. まずコンテナのクローンを作成し、手順に従ってコンテナを起動します

2. 生成されたAPIアドレスをブラウザにコピーして使用します

3. 3つの使い方

HiDiffusion では、次の 3 つのメソッドがサポートされています。これらはすべてモデルに対応しており、メソッドを使用する場合は、最初にモデルが読み込まれてから画像が生成されます。メソッドを切り替えると、モデルがリロードされます。

3.1 方法 1: テキストから画像を生成する

順方向キューワードと逆方向キューワードを入力して画像を生成します。

ポジティブな合言葉: 画像で見たいものを説明します。

例: 遺跡の中にそびえ立ち、石のゴーレムが目覚め、その体の隙間から蔓や花が生えています。

逆プロンプトの単語: 画像に表示したくないコンテンツを記述するために使用され、不要な要素を除外して生成される結果を最適化します。

例: ぼやけた、醜い、重複、不適切に描画された顔、変形、モザイク、アーチファクト、悪い手足 (ぼやけた、醜い、重複、不適切に描画された顔、変形、モザイク、アーチファクト、悪い手足)。

使用手順と生成される効果は次の図に示されています

3.2 方法 2: ControlNet を使用してグラフを生成する

コントロールネット: 元画像の輪郭を元にプロンプトワードを元に画像を生成するまず元画像の輪郭を抽出し、その輪郭を元に画像を生成します。

3.3 方法 3: 画像の修復

元の画像：修復する画像を入力します

修理エリア: 修復する領域を入力します。これは実際にはバイナリイメージです。白い領域は修復する領域、黒い領域は修復するとき、zheng dan プロンプトの言葉に従って変更されます。！

たとえば、肯定的なプロンプトワードを入力します。革製の飛行士帽とゴーグルをかぶったスチームパンクの探検家が、真鍮の望遠鏡を手に、そびえ立つ古木の中に立っており、その根は複雑な歯車とパイプで絡み合っています。革製の飛行士帽とゴーグルを着用しています。彼は真鍮製の望遠鏡を持ち、根が複雑な歯車やパイプに絡み合ったそびえ立つ古木の間に立っています。

逆のプロンプトの単語は、ぼやけている、醜い、重複している、下手に描かれた顔、変形している、モザイク、アーチファクト、悪い手足などです。