2ヶ月前
InstantID: 秒単位のゼロショットアイデンティティ保持生成
Wang, Qixun ; Bai, Xu ; Wang, Haofan ; Qin, Zekui ; Chen, Anthony ; Li, Huaxia ; Tang, Xu ; Hu, Yao

要約
個別画像合成において、Textual Inversion、DreamBooth、LoRAなどの手法により著しい進展が見られています。しかし、これらの手法の実世界での適用は、高いストレージ要件、長時間の微調整プロセス、および複数の参照画像が必要であるという点で制限されています。一方、既存のID埋め込みベースの手法は、単一の順方向推論のみを必要とするものの、多くのモデルパラメータに対する広範な微調整が必要であったり、コミュニティで事前学習されたモデルとの互換性に欠けたり、高品質な顔の忠実度を維持できないといった課題を抱えています。これらの制約に対処するため、我々は強力な拡散モデルに基づくソリューションであるInstantIDを提案します。当社のプラグアンドプレイモジュールは、単一の顔画像を使用してさまざまなスタイルでの画像パーソナライズを巧みに処理し、高忠実度を確保します。これを達成するために、強い意味的条件と弱い空間的条件を課すことで新しいIdentityNet(アイデンティティネット)を設計し、顔画像とランドマーク画像をテキストプロンプトと統合して画像生成を導きます。InstantIDは優れた性能と効率性を示しており、特にアイデンティティの保存が重要な実世界アプリケーションにおいて非常に有益であることが証明されています。さらに、当社の研究はSD1.5やSDXLなどの人気のある事前学習済みテキストから画像への拡散モデルとシームレスに統合できることから、適応可能なプラグインとして機能します。当社のコードと事前学習済みチェックポイントはhttps://github.com/InstantID/InstantIDで公開されます。