
要約
主題駆動のテキストから画像生成モデルは、テキストプロンプトに基づいて入力された主題の新しい表現を生成します。既存のモデルは、長時間の微調整と主題忠実度の維持が困難な問題を抱えています。これらの制限を克服するために、私たちは新しい主体駆動型画像生成モデルであるBLIP-Diffusionを導入します。このモデルは、主題画像とテキストプロンプトの両方を受け入れるマルチモーダル制御をサポートしています。他の主体駆動型生成モデルとは異なり、BLIP-Diffusionは事前に学習された新しいマルチモーダルエンコーダーを導入し、主体表現を提供します。まず、BLIP-2に従ってマルチモーダルエンコーダーを事前学習させ、テキストと整合性のある視覚表現を生成します。次に、主体表現学習タスクを設計し、ディフュージョンモデルがそのような視覚表現を利用し、新たな主体表現を生成できるようにします。DreamBoothなどの以前の方法と比較して、当社のモデルではゼロショットでの主体駆動型生成が可能となり、カスタマイズされた主体に対する微調整も最大20倍の速度向上が見られます。また、BLIP-DiffusionはControlNetやprompt-to-promptなどの既存技術と柔軟に組み合わせることができ、新たな主体駆動型生成および編集アプリケーションを可能にします。コードとモデルはhttps://github.com/salesforce/LAVIS/tree/main/projects/blip-diffusionで公開されます。プロジェクトページはhttps://dxli94.github.io/BLIP-Diffusion-website/です。