2ヶ月前

シフトされた拡散によるテキストから画像の生成

Yufan Zhou; Bingchen Liu; Yizhe Zhu; Xiao Yang; Changyou Chen; Jinhui Xu

要約

私たちは新しいテキストから画像を生成する手法であるCorgiを提案します。Corgiは、入力テキストからより良い画像埋め込みを生成するための私たちが提唱したシフトされた拡散モデルに基づいています。DALL-E 2で使用されている基準の拡散モデルとは異なり、当手法は新しい初期分布と拡散の新しい遷移ステップを設計することで、事前学習済みのCLIPモデルの事前知識をその拡散プロセスに無縫接続で符号化します。効率性と有効性の両面で強力なDALL-E 2の基準モデルよりも優れたテキストからの画像埋め込み生成能力を持つため、当手法はより良いテキストから画像への生成を実現しています。大規模な広範な実験が行われ、定量的な指標と人間評価の観点から評価され、既存の手法に比べて当手法がより強い生成能力を持つことが示されました。さらに、当モデルは半教師ありおよび言語フリーでのテキストから画像への生成訓練を可能にします。これにより、訓練データセット内の一部または全ての画像にキャプションが付いていない場合でも訓練が可能です。MS-COCO上でゼロショットのテキストから画像への生成タスクにおいて評価した結果、わずか1.7%の画像にキャプションが付いているだけで、当半教師ありモデルはDALL-E 2と同等のFID結果を得ています。また、Corgiは下流の言語フリーでのテキストから画像への生成タスクにおいて異なるデータセットで新たな最先端結果を達成し、以前の手法であるLafiteに対して大幅に優れています（zero-shot text-to-image generation）。