Kolors Kuaishou は絵、テキスト、絵を描くことができる大型モデルのデモ

Kolors 中国語をよりよく理解するためのヴィンセント図の大きなモデル

モデル紹介

Kolors は、Kuaishou Kolors チームによって開発された潜在拡散に基づく大規模なテキストから画像への生成モデルです。何十億ものテキストと画像のペアでトレーニングされた Kolors は、ビジュアル品質、複雑なセマンティクスの精度、中国語と英語の文字のテキスト レンダリングにおいて、オープンソース モデルやクローズド ソース モデルと比べて大きな利点を示しています。さらに、Kolors は中国語と英語の入力をサポートしており、中国語コンテンツの理解と生成において優れたパフォーマンスを示します。生成効果は Midjourney-v6 レベルと同等で、最大 256 文字のテキスト入力をサポートします。

実行メソッド

1. コンテナーのクローンを作成して実行します

2. コンテナが「実行中」状態になったら、API アドレスをコピーしてブラウザで開きます。

3. リンクを開くと、次のインターフェイスが表示されます。

4. 以下をクリックして画像をアップロードし、テキスト プロンプトを入力して、 画像の生成 結果を生み出すために

必要に応じて関連パラメータを変更することもできます

  • 高さ: 生成された画像の高さを変更します。
  • 幅: 生成された画像の幅を変更します。
  • 推論ステップ: 画像の生成時に使用されるノイズ除去ステップの数。一般に、デフォルトの推論ステップ数 (たとえば、50 ステップ) を使用すると、高品質の画像が得られます。生成されたエフェクトをすばやくプレビューする必要がある場合は、より少ないステップ数を使用できます。最高品質の結果を追求する場合は、より多くのステップ数を使用できます。
  • ガイダンス スケール: 画像生成時にモデルがテキスト プロンプト条件にどの程度従うかを制御するハイパーパラメーター。値が大きい場合 (たとえば、7 より大きい場合)、生成された画像は視覚的にテキスト プロンプトの説明に近くなり、品質と一貫性が高くなります。値が小さいほど (例: 7 未満)、生成された画像はより多様性を示す可能性が高く、モデルは画像生成時にテキストの手がかりに依存することが少なくなり、より創造性とバリエーションが可能になります。
  • プロンプトごとの画像: モデルによって生成される画像の数を変更します。

5. 結果の生成

話し合ってコミュニケーションする

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。