オンラインチュートリアル | チューリング賞受賞者のヤン・ルカン氏が称賛！ Xiaohonshu のオープンソース InstantID を使用すると、1 つのオリジナル画像で複数のスタイルの写真をカスタマイズできます。

少し前に、Xiaohongshu の 95 年代以降のエンジニアのグループが北京大学のチームと協力して、オープンソースプロジェクト「InstantID」をリリースしました。写真をアップロードするだけで、この AI 写真ツールを使用すると、AI 写真をさまざまなスタイルに簡単にカスタマイズでき、面倒な写真編集に別れを告げることができます。
InstantID はリリースと同時に広く注目を集め、GitHub コレクションは 9.9K に達しました。チューリング賞受賞者の Yann LeCun 氏も、チームが生成したサンプルを自身のソーシャルアカウントに転送して支持を表明しました。

これまで、トピック主導のテキストから画像への生成には、通常、トピック (文字、スタイルなど) を含む複数のデータセットに対するトレーニングが必要でした。代表的なソリューションには、DreamBooth、LoRA などが含まれますが、そのようなソリューションには高いストレージ要件が必要でした。時間のかかる微調整プロセスにより、多くのユーザーが躊躇し、実際のシナリオにすぐに適用できなくなりました。InstantID の登場により、この行き詰まりが打破されました。

InstantID の動作原理は主に 3 つの部分に分かれています。
* ID埋め込み: 意味論的な顔の特徴は、事前トレーニングされた顔認識モデルを通じて顔埋め込みとして抽出されます。埋め込みには、顔の特徴、表情、年齢などの意味論的な情報が豊富に含まれており、その後の画像生成のための強固な基盤を提供します。
*画像 アダプタ: 抽出された ID 情報とテキストプロンプトを組み合わせる軽量適応モジュールの導入。分離されたクロスアテンションメカニズムを通じて、画像とテキストは独立して画像生成に影響を与えることができ、アイデンティティ情報を維持しながら画像スタイルを細かく制御できます。
*アイデンティティネット: 強い意味論的条件 (顔の特徴の詳細な説明など) と弱い空間的条件 (顔のキーポイントの位置など) を通じて、参照顔画像の複雑な特徴をエンコードします。生成プロセスは顔埋め込みによってガイドされます。顔埋め込みはテキスト情報を必要とせず、新しく追加されたモジュールに対してのみ更新する必要があるため、事前トレーニングされたテキストから画像へのモデルをフリーズした状態に保ち、柔軟性を確保します。
複雑さはコードに任せ、シンプルさはユーザーに任せてください。InstantID は、ゼロタイムのパーソナライズされた画像合成において技術的な進歩を達成するだけでなく、ユーザーエクスペリエンスの面で究極のシンプルさと直観性も実現します。デザインの初心者でもアートの達人でも、このプラットフォームでパーソナライズされた画像を簡単に作成できます。具体的なアプリケーションシナリオには次のようなものがあります。
*マルチID、マルチスタイル合成
InstantIDでワンクリックで「国境を越えた連携」が可能に！

* 様式化された合成
顔写真を入力するだけで、カスタマイズされたスタイルのさまざまなAIポートレートを生成できます。

* リアルな合成
これらの写真は本当に合成されたものですか?

* ID補間
ヤン・ミーとテイラーの画像を組み合わせることもできます。（追記：この機能を使えば、両親の顔の体重から将来の子供の容姿を予測することもできます！）

* 新しい視点合成
原画＋スタイル参考画＝万能マスター

※非ポートレート合成
人間と動物が融合すると何が起こるのでしょうか？

選べるスタイルがたくさんありますので、試してみるのが待ちきれません!心配しないでください。HyperAI は、「InstantID Personalized Photo Generation Demo」チュートリアルを開始しました。このチュートリアルでは、誰でも使用できる環境をセットアップしました。「クローン」をクリックして、「72 の変更」を実現してください。

公開チュートリアルのアドレス:

https://hyper.ai/tutorials/31559

デモの実行
1. hyper.ai にログインし、「チュートリアル」ページで「InstantID Personalized Photo Generation Demo」を選択します。「このチュートリアルをオンラインで実行する」をクリックします。

2. ページがジャンプしたら、右上隅の「クローン」をクリックしてチュートリアルを独自のコンテナにクローンします。右下隅にある「次へ: コンピューティング能力の選択」をクリックします。

3. ジャンプ後、「NVIDIA GeForce RTX 4090」を選択し、「次へ: 確認」をクリックします。以下の招待リンクを使用して登録した新規ユーザーは、RTX 4090 を 4 時間 + 5 時間も利用できます。 CPU 無料のコンピューティング能力間隔！
HyperAI ハイパーニューラルの専用招待リンク (ブラウザに直接コピーして開きます):https://openbayes.com/console/signup?r=6bJ0ljLFsFh_Vvej

4. [続行] をクリックし、リソースが割り当てられるまで待ちます。ステータスが [実行中] に変わったら、[ワークスペースを開く] をクリックします。

5. 起動ページで新しいターミナルセッションを作成し、次のコマンドを入力します。

cd InstantID

6. 次のコマンドを入力して Gradio デモを実行します。

python gradio_demo/app.py

7. コマンドラインに「ローカル URL で実行中: https://0.0.0.0:8080」と表示されたら、右側の API アドレスをブラウザのアドレスバーにコピーして、InstantID ページにアクセスします。APIアドレスアクセス機能を利用するには実名認証が必要となりますのでご注意ください。

エフェクト表示

1. InstantID ページを開き、キャラクター画像をアップロードし、参考画像をアップロードします。このうち、参照画像は画像内でのキャラクターの位置を固定するために使用されます。

2. 以下のパラメータ調整を改善しました。

*「プロンプト」プロンプト単語ボックスに、生成する必要があるキーワードを入力します。プロンプトは通常、最初の写真に基づいて作成されます。アップロードされた写真が男性の場合は、「男性」と入力できます。

※「LCM による高速推論を有効にする」オプションをクリックします。オンにしないと、グラフの生成速度が若干遅くなります。

*「スタイルテンプレート」スタイルセレクターは、「水彩」水彩、「ラインアート」線スタイル、その他の効果を含むプロンプトワードを完璧にすることができます。

* 「IdentityNet 強度 (忠実度)」は、最初にインポートされたキャラクター画像に作用する顔の強度または ID 強度です。パラメーターが高いほど、生成される画像はキャラクター画像に近づきます。デフォルト値は 0.8 です。

※「画像アダプタ強度（詳細）」参照画像に作用する画像参照強度。デフォルト値は0.8です。

*「詳細オプション」の詳細パラメータ調整。

* 「ネガティブプロンプト」、否定的なプロンプトの単語。低品質の単語を避けるなど、最終的に生成される画像に含めたくないコンテンツを入力できます。

※「サンプルステップ数」「ガイダンススケール」「シード」はデフォルト値を選択するだけです。

*「ランダムシード」ランダムシード、オープン。

※「顔以外の領域を強調」をオンにすると、スタイルセレクターの重みが増します。

3. 「送信」をクリックすると、5 秒以内に画像が生成されます。

現在、HyperAI 公式 Web サイトでは、Jupyter Notebook にまとめられた数百の厳選された機械学習関連のチュートリアルを公開しています。
リンクをクリックして、関連するチュートリアルとデータセットを検索します。https://hyper.ai/tutorials
以上が今回 HyperAI Super Neural が共有したコンテンツのすべてです。高品質なプロジェクトを見つけたら、バックグラウンドでメッセージを残してください。さらに、「安定拡散チュートリアル交換グループ」も設立しており、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりするために、友人がグループに参加することを歓迎します。

QR コードをスキャンしてチュートリアル交換グループに参加してください

グループ参加用の QR コードが失敗した場合は、以下の QR コードをスキャンして Neurostar WeChat (WeChat ID: Hyperai01) を追加し、「SD チュートリアル交換グループ」とコメントしてグループチャットに参加できます。

HyperAI

オンラインチュートリアル | チューリング賞受賞者のヤン・ルカン氏が称賛！ Xiaohonshu のオープンソース InstantID を使用すると、1 つのオリジナル画像で複数のスタイルの写真をカスタマイズできます。

2年前

* 様式化された合成
顔写真を入力するだけで、カスタマイズされたスタイルのさまざまなAIポートレートを生成できます。

* リアルな合成
これらの写真は本当に合成されたものですか?

* 新しい視点合成
原画＋スタイル参考画＝万能マスター

※非ポートレート合成
人間と動物が融合すると何が起こるのでしょうか？

公開チュートリアルのアドレス:

https://hyper.ai/tutorials/31559

5. 起動ページで新しいターミナルセッションを作成し、次のコマンドを入力します。

cd InstantID

6. 次のコマンドを入力して Gradio デモを実行します。

python gradio_demo/app.py

エフェクト表示

2. 以下のパラメータ調整を改善しました。

※「LCM による高速推論を有効にする」オプションをクリックします。オンにしないと、グラフの生成速度が若干遅くなります。

※「画像アダプタ強度（詳細）」参照画像に作用する画像参照強度。デフォルト値は0.8です。

*「詳細オプション」の詳細パラメータ調整。

※「サンプルステップ数」「ガイダンススケール」「シード」はデフォルト値を選択するだけです。

*「ランダムシード」ランダムシード、オープン。

※「顔以外の領域を強調」をオンにすると、スタイルセレクターの重みが増します。

3. 「送信」をクリックすると、5 秒以内に画像が生成されます。

QR コードをスキャンしてチュートリアル交換グループに参加してください

関連ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

オンラインチュートリアル | 香港大学チームがDeepTutorをオープンソース化。DeepTutorは、マルチエージェントコラボレーションを通じて理解、推論、生成を網羅するインタラクティブな学習を可能にするパーソナル学習アシスタントです。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

オンラインチュートリアル｜指示追従／推論／コーディングの詳細ガイド：Mistral Medium 3.5でコーディングエージェントがクラウドへ

オンラインチュートリアル｜小型ながらパワフルなコード：Qwen3.6-27Bがフラッグシップレベルのプログラミング機能を実現

無料CPUオンラインチュートリアル | Hermes Agent: 長期記憶について学びましょう。メモリ拡張プラグインTencentDB Agent Memoryは、事実、設定、タスク状態などを個別に保存できます。

オンラインチュートリアル | 最大4倍の高速生成速度：DiffusionGemmaは、複数ラウンドの並列ノイズ除去に基づく継続的な最適化により、テキストのブロック全体を同時に生成できます。

* 様式化された合成
顔写真を入力するだけで、カスタマイズされたスタイルのさまざまなAIポートレートを生成できます。

* リアルな合成
これらの写真は本当に合成されたものですか?

* 新しい視点合成
原画＋スタイル参考画＝万能マスター

※非ポートレート合成
人間と動物が融合すると何が起こるのでしょうか？

公開チュートリアルのアドレス:

https://hyper.ai/tutorials/31559

5. 起動ページで新しいターミナルセッションを作成し、次のコマンドを入力します。

cd InstantID

6. 次のコマンドを入力して Gradio デモを実行します。

python gradio_demo/app.py

エフェクト表示

2. 以下のパラメータ調整を改善しました。

※「LCM による高速推論を有効にする」オプションをクリックします。オンにしないと、グラフの生成速度が若干遅くなります。

※「画像アダプタ強度（詳細）」参照画像に作用する画像参照強度。デフォルト値は0.8です。

*「詳細オプション」の詳細パラメータ調整。

※「サンプルステップ数」「ガイダンススケール」「シード」はデフォルト値を選択するだけです。

*「ランダムシード」ランダムシード、オープン。

※「顔以外の領域を強調」をオンにすると、スタイルセレクターの重みが増します。

3. 「送信」をクリックすると、5 秒以内に画像が生成されます。

QR コードをスキャンしてチュートリアル交換グループに参加してください

Command Palette

オンラインチュートリアル | チューリング賞受賞者のヤン・ルカン氏が称賛！ Xiaohonshu のオープンソース InstantID を使用すると、1 つのオリジナル画像で複数のスタイルの写真をカスタマイズできます。

Command Palette

オンラインチュートリアル | チューリング賞受賞者のヤン・ルカン氏が称賛！ Xiaohonshu のオープンソース InstantID を使用すると、1 つのオリジナル画像で複数のスタイルの写真をカスタマイズできます。

関連 ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

オンラインチュートリアル｜指示追従／推論／コーディングの詳細ガイド：Mistral Medium 3.5でコーディングエージェントがクラウドへ

オンラインチュートリアル｜小型ながらパワフルなコード：Qwen3.6-27Bがフラッグシップレベルのプログラミング機能を実現

無料CPUオンラインチュートリアル | Hermes Agent: 長期記憶について学びましょう。メモリ拡張プラグインTencentDB Agent Memoryは、事実、設定、タスク状態などを個別に保存できます。

オンラインチュートリアル | 最大4倍の高速生成速度：DiffusionGemmaは、複数ラウンドの並列ノイズ除去に基づく継続的な最適化により、テキストのブロック全体を同時に生成できます。

Command Palette

オンラインチュートリアル | チューリング賞受賞者のヤン・ルカン氏が称賛！ Xiaohonshu のオープンソース InstantID を使用すると、1 つのオリジナル画像で複数のスタイルの写真をカスタマイズできます。

関連 ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

オンラインチュートリアル｜指示追従／推論／コーディングの詳細ガイド：Mistral Medium 3.5でコーディングエージェントがクラウドへ

オンラインチュートリアル｜小型ながらパワフルなコード：Qwen3.6-27Bがフラッグシップレベルのプログラミング機能を実現

無料CPUオンラインチュートリアル | Hermes Agent: 長期記憶について学びましょう。メモリ拡張プラグインTencentDB Agent Memoryは、事実、設定、タスク状態などを個別に保存できます。

オンラインチュートリアル | 最大4倍の高速生成速度：DiffusionGemmaは、複数ラウンドの並列ノイズ除去に基づく継続的な最適化により、テキストのブロック全体を同時に生成できます。

関連 ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

オンラインチュートリアル｜指示追従／推論／コーディングの詳細ガイド：Mistral Medium 3.5でコーディングエージェントがクラウドへ

オンラインチュートリアル｜小型ながらパワフルなコード：Qwen3.6-27Bがフラッグシップレベルのプログラミング機能を実現

無料CPUオンラインチュートリアル | Hermes Agent: 長期記憶について学びましょう。メモリ拡張プラグインTencentDB Agent Memoryは、事実、設定、タスク状態などを個別に保存できます。

オンラインチュートリアル | 最大4倍の高速生成速度：DiffusionGemmaは、複数ラウンドの並列ノイズ除去に基づく継続的な最適化により、テキストのブロック全体を同時に生成できます。

関連 ニュース

絵文字で音声生成を制御できますか? Irodori-TTS は RF-DiT アーキテクチャに基づく日本語 TTS です。湿疹と白癬の皮膚疾患データセット: 医用画像分類と転移学習をサポートします。

高速かつ高精度！Cohereがオープンソースの文字起こしモデルをリリース。複雑なシナリオの精密な解析：Chandra-ocr-2ビジュアル言語モデルが高精度OCRを実現。

4段階の画像出力/4K品質/6倍の高速化、PiDはピクセル拡散を使用してデコードと超解像出力を統合します。SA-3DAO：アーティストが手作業で作成した3Dメッシュとペアになった1000組の実画像を含むデータセット。

テンセントがHy-MT1.5翻訳モデルをオープンソース化：440MBで最高レベルの翻訳能力を実現。MITがMathNetを共同リリース：27,000の実際のオリンピック数学問題を網羅したマルチモーダル数学推論ベンチマーク。

オンラインチュートリアル｜指示追従／推論／コーディングの詳細ガイド：Mistral Medium 3.5でコーディングエージェントがクラウドへ

オンラインチュートリアル｜小型ながらパワフルなコード：Qwen3.6-27Bがフラッグシップレベルのプログラミング機能を実現

無料CPUオンラインチュートリアル | Hermes Agent: 長期記憶について学びましょう。メモリ拡張プラグインTencentDB Agent Memoryは、事実、設定、タスク状態などを個別に保存できます。

オンラインチュートリアル | 最大4倍の高速生成速度：DiffusionGemmaは、複数ラウンドの並列ノイズ除去に基づく継続的な最適化により、テキストのブロック全体を同時に生成できます。

関連ニュース

関連ニュース

関連ニュース

関連ニュース