7日前

教師なしの意味対応のためのスタビルド・ディフュージョンの活用

Eric Hedlin, Gopal Sharma, Shweta Mahajan, Hossam Isack, Abhishek Kar, Andrea Tagliasacchi, Kwang Moo Yi
教師なしの意味対応のためのスタビルド・ディフュージョンの活用
要約

テキストから画像への拡散モデル(text-to-image diffusion models)は、現在、実写画像と見分けがつかない画像の生成が可能になっています。このような画像を生成するためには、モデルが生成対象のオブジェクトの意味論的特性を理解する必要があります。本研究では、いかなる学習を施さずに、拡散モデル内に内在するこの意味論的知識を活用することで、複数の画像間における意味的対応関係(semantic correspondences)を同定できることを示します。具体的には、ある画像に対して、関心領域(regions of interest)に最大限の注目を向けるように、モデルのプロンプト埋め込み(prompt embeddings)を最適化します。この最適化された埋め込みは、位置に関する意味論的情報を捉え、それを他の画像へと転移することが可能になります。このアプローチにより、PF-Willowデータセットにおいて、強力な教師あり最良手法と同等の性能を達成し、PF-Willow、CUB-200、SPair-71kデータセットにおいて、従来の弱教師ありまたは無教師手法と比較して顕著に優れた結果(SPair-71kでは相対的に20.9%の向上)を得ることができました。

教師なしの意味対応のためのスタビルド・ディフュージョンの活用 | 最新論文 | HyperAI超神経