6ヶ月前

テキストから画像生成

画像間変換

マルチモーダル表現

マルチモーダル

Eric Hedlin Gopal Sharma Shweta Mahajan Hossam Isack Abhishek Kar Andrea Tagliasacchi Kwang Moo Yi

概要

テキストから画像への拡散モデル（text-to-image diffusion models）は、現在、実写画像と見分けがつかない画像の生成が可能になっています。このような画像を生成するためには、モデルが生成対象のオブジェクトの意味論的特性を理解する必要があります。本研究では、いかなる学習を施さずに、拡散モデル内に内在するこの意味論的知識を活用することで、複数の画像間における意味的対応関係（semantic correspondences）を同定できることを示します。具体的には、ある画像に対して、関心領域（regions of interest）に最大限の注目を向けるように、モデルのプロンプト埋め込み（prompt embeddings）を最適化します。この最適化された埋め込みは、位置に関する意味論的情報を捉え、それを他の画像へと転移することが可能になります。このアプローチにより、PF-Willowデータセットにおいて、強力な教師あり最良手法と同等の性能を達成し、PF-Willow、CUB-200、SPair-71kデータセットにおいて、従来の弱教師ありまたは無教師手法と比較して顕著に優れた結果（SPair-71kでは相対的に20.9%の向上）を得ることができました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

テキストから画像生成

画像間変換

マルチモーダル表現

マルチモーダル

Eric Hedlin Gopal Sharma Shweta Mahajan Hossam Isack Abhishek Kar Andrea Tagliasacchi Kwang Moo Yi

概要

テキストから画像への拡散モデル（text-to-image diffusion models）は、現在、実写画像と見分けがつかない画像の生成が可能になっています。このような画像を生成するためには、モデルが生成対象のオブジェクトの意味論的特性を理解する必要があります。本研究では、いかなる学習を施さずに、拡散モデル内に内在するこの意味論的知識を活用することで、複数の画像間における意味的対応関係（semantic correspondences）を同定できることを示します。具体的には、ある画像に対して、関心領域（regions of interest）に最大限の注目を向けるように、モデルのプロンプト埋め込み（prompt embeddings）を最適化します。この最適化された埋め込みは、位置に関する意味論的情報を捉え、それを他の画像へと転移することが可能になります。このアプローチにより、PF-Willowデータセットにおいて、強力な教師あり最良手法と同等の性能を達成し、PF-Willow、CUB-200、SPair-71kデータセットにおいて、従来の弱教師ありまたは無教師手法と比較して顕著に優れた結果（SPair-71kでは相対的に20.9%の向上）を得ることができました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています