オンラインチュートリアル | チューリング賞受賞者のヤン・ルカン氏が称賛! Xiaohonshu のオープンソース InstantID を使用すると、1 つのオリジナル画像で複数のスタイルの写真をカスタマイズできます。

少し前に、Xiaohongshu の 95 年代以降のエンジニアのグループが北京大学のチームと協力して、オープンソース プロジェクト「InstantID」をリリースしました。写真をアップロードするだけで、この AI 写真ツールを使用すると、AI 写真をさまざまなスタイルに簡単にカスタマイズでき、面倒な写真編集に別れを告げることができます。
InstantID はリリースと同時に広く注目を集め、GitHub コレクションは 9.9K に達しました。チューリング賞受賞者の Yann LeCun 氏も、チームが生成したサンプルを自身のソーシャル アカウントに転送して支持を表明しました。

これまで、トピック主導のテキストから画像への生成には、通常、トピック (文字、スタイルなど) を含む複数のデータセットに対するトレーニングが必要でした。代表的なソリューションには、DreamBooth、LoRA などが含まれますが、そのようなソリューションには高いストレージ要件が必要でした。時間のかかる微調整プロセスにより、多くのユーザーが躊躇し、実際のシナリオにすぐに適用できなくなりました。InstantID の登場により、この行き詰まりが打破されました。

InstantID の動作原理は主に 3 つの部分に分かれています。
* ID埋め込み: 意味論的な顔の特徴は、事前トレーニングされた顔認識モデルを通じて顔埋め込みとして抽出されます。埋め込みには、顔の特徴、表情、年齢などの意味論的な情報が豊富に含まれており、その後の画像生成のための強固な基盤を提供します。
*画像 アダプタ: 抽出された ID 情報とテキスト プロンプトを組み合わせる軽量適応モジュールの導入。分離されたクロスアテンション メカニズムを通じて、画像とテキストは独立して画像生成に影響を与えることができ、アイデンティティ情報を維持しながら画像スタイルを細かく制御できます。
*アイデンティティネット: 強い意味論的条件 (顔の特徴の詳細な説明など) と弱い空間的条件 (顔のキー ポイントの位置など) を通じて、参照顔画像の複雑な特徴をエンコードします。生成プロセスは顔埋め込みによってガイドされます。顔埋め込みはテキスト情報を必要とせず、新しく追加されたモジュールに対してのみ更新する必要があるため、事前トレーニングされたテキストから画像へのモデルをフリーズした状態に保ち、柔軟性を確保します。
複雑さはコードに任せ、シンプルさはユーザーに任せてください。InstantID は、ゼロタイムのパーソナライズされた画像合成において技術的な進歩を達成するだけでなく、ユーザー エクスペリエンスの面で究極のシンプルさと直観性も実現します。デザインの初心者でもアートの達人でも、このプラットフォームでパーソナライズされた画像を簡単に作成できます。具体的なアプリケーション シナリオには次のようなものがあります。
*マルチID、マルチスタイル合成
InstantIDでワンクリックで「国境を越えた連携」が可能に!

* 様式化された合成
顔写真を入力するだけで、カスタマイズされたスタイルのさまざまなAIポートレートを生成できます。

* リアルな合成
これらの写真は本当に合成されたものですか?

* ID補間
ヤン・ミーとテイラーの画像を組み合わせることもできます。 (追記:この機能を使えば、両親の顔の体重から将来の子供の容姿を予測することもできます!)

* 新しい視点合成
原画+スタイル参考画=万能マスター

※非ポートレート合成
人間と動物が融合すると何が起こるのでしょうか?

選べるスタイルがたくさんありますので、試してみるのが待ちきれません!心配しないでください。HyperAI は、「InstantID Personalized Photo Generation Demo」チュートリアルを開始しました。このチュートリアルでは、誰でも使用できる環境をセットアップしました。「クローン」をクリックして、「72 の変更」を実現してください。
公開チュートリアルのアドレス:
https://hyper.ai/tutorials/31559
デモの実行
1. hyper.ai にログインし、「チュートリアル」ページで「InstantID Personalized Photo Generation Demo」を選択します。 「このチュートリアルをオンラインで実行する」をクリックします。

2. ページがジャンプしたら、右上隅の「クローン」をクリックしてチュートリアルを独自のコンテナにクローンします。右下隅にある「次へ: コンピューティング能力の選択」をクリックします。


3. ジャンプ後、「NVIDIA GeForce RTX 4090」を選択し、「次へ: 確認」をクリックします。以下の招待リンクを使用して登録した新規ユーザーは、RTX 4090 を 4 時間 + 5 時間も利用できます。 CPU 無料のコンピューティング能力間隔!
HyperAI ハイパーニューラルの専用招待リンク (ブラウザに直接コピーして開きます):https://openbayes.com/console/signup?r=6bJ0ljLFsFh_Vvej

4. [続行] をクリックし、リソースが割り当てられるまで待ちます。ステータスが [実行中] に変わったら、[ワークスペースを開く] をクリックします。


5. 起動ページで新しいターミナル セッションを作成し、次のコマンドを入力します。
cd InstantID


6. 次のコマンドを入力して Gradio デモを実行します。
python gradio_demo/app.py

7. コマンド ラインに「ローカル URL で実行中: https://0.0.0.0:8080」と表示されたら、右側の API アドレスをブラウザのアドレス バーにコピーして、InstantID ページにアクセスします。APIアドレスアクセス機能を利用するには実名認証が必要となりますのでご注意ください。



エフェクト表示
1. InstantID ページを開き、キャラクター画像をアップロードし、参考画像をアップロードします。このうち、参照画像は画像内でのキャラクターの位置を固定するために使用されます。

2. 以下のパラメータ調整を改善しました。
*「プロンプト」プロンプト単語ボックスに、生成する必要があるキーワードを入力します。プロンプトは通常、最初の写真に基づいて作成されます。アップロードされた写真が男性の場合は、「男性」と入力できます。
※「LCM による高速推論を有効にする」オプションをクリックします。オンにしないと、グラフの生成速度が若干遅くなります。

*「スタイルテンプレート」スタイルセレクターは、「水彩」水彩、「ラインアート」線スタイル、その他の効果を含むプロンプトワードを完璧にすることができます。
* 「IdentityNet 強度 (忠実度)」は、最初にインポートされたキャラクター画像に作用する顔の強度または ID 強度です。パラメーターが高いほど、生成される画像はキャラクター画像に近づきます。デフォルト値は 0.8 です。
※「画像アダプタ強度(詳細)」 参照画像に作用する画像参照強度。デフォルト値は0.8です。

*「詳細オプション」の詳細パラメータ調整。
* 「ネガティブ プロンプト」、否定的なプロンプトの単語。低品質の単語を避けるなど、最終的に生成される画像に含めたくないコンテンツを入力できます。
※「サンプルステップ数」「ガイダンススケール」「シード」はデフォルト値を選択するだけです。
*「ランダムシード」ランダムシード、オープン。
※「顔以外の領域を強調」をオンにすると、スタイルセレクターの重みが増します。

3. 「送信」をクリックすると、5 秒以内に画像が生成されます。


現在、HyperAI 公式 Web サイトでは、Jupyter Notebook にまとめられた数百の厳選された機械学習関連のチュートリアルを公開しています。
リンクをクリックして、関連するチュートリアルとデータ セットを検索します。https://hyper.ai/tutorials
以上が今回 HyperAI Super Neural が共有したコンテンツのすべてです。高品質なプロジェクトを見つけたら、バックグラウンドでメッセージを残してください。さらに、「安定拡散チュートリアル交換グループ」も設立しており、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりするために、友人がグループに参加することを歓迎します。
QR コードをスキャンしてチュートリアル交換グループに参加してください

グループ参加用の QR コードが失敗した場合は、以下の QR コードをスキャンして Neurostar WeChat (WeChat ID: Hyperai01) を追加し、「SD チュートリアル交換グループ」とコメントしてグループ チャットに参加できます。
