2ヶ月前

階層的なCLIP潜在変数を用いたテキスト条件付き画像生成

Aditya Ramesh; Prafulla Dhariwal; Alex Nichol; Casey Chu; Mark Chen
階層的なCLIP潜在変数を用いたテキスト条件付き画像生成
要約

コントラスティブモデルであるCLIPは、画像の意味とスタイルを両方捉える堅牢な表現を学習することが示されています。これらの表現を画像生成に活用するために、我々は2段階のモデルを提案します。第1段階では、テキストキャプションが与えられたときにCLIP画像埋め込みを生成する事前分布(prior)を作成し、第2段階では、この画像埋め込みに基づいて画像を生成するデコーダーを使用します。我々の実験結果は、明示的に画像表現を生成することで、現実的な品質やキャプション類似度に最小限の影響を与える一方で、画像の多様性が向上することを示しています。また、画像表現に基づくデコーダーは、非本質的な詳細が欠けている場合でも、その意味とスタイルを保ちつつ、画像のバリエーションを作り出すことができます。さらに、CLIPの共通埋め込み空間により、ゼロショットで言語ガイドによる画像操作が可能になります。デコーダーには拡散モデルを使用し、事前分布には自己回帰モデルと拡散モデルの両方を試しましたが、後者が計算効率が高く、より高品質なサンプルを生成することが確認されました。