eDiff-I:専門家ノイズ除去器のアンサンブルを用いたテキストから画像への拡散モデル

大規模な拡散ベースの生成モデルは、テキスト条件付きの高解像度画像合成において画期的な進展をもたらしました。このようなテキストから画像への拡散モデルは、初期状態としてランダムノイズから出発し、反復的なプロセスを通じてテキストプロンプトを条件として画像を段階的に合成していきます。本研究では、この生成プロセス全体にわたり、モデルの合成行動が質的に変化することを発見しました。生成の初期段階では、テキストプロンプトに強く依存してテキストと整合したコンテンツを生成する一方、後半の段階ではテキスト条件付けがほとんど無視されるようになります。これは、生成プロセス全体にわたってモデルパラメータを共有することが最適ではない可能性を示唆しています。そこで、従来の手法とは異なり、生成プロセスの異なる段階に特化した複数のテキストから画像への拡散モデルのアンサンブルを学習する手法を提案します。学習効率を維持するため、まず単一のモデルを学習し、その後それを特定の生成段階に特化した複数のモデルに分割して、それぞれを段階ごとに微調整します。本研究で提案する拡散モデルのアンサンブル、eDiff-Iは、推論時の計算コストを維持しつつ、テキストとの整合性を向上させ、高い視覚品質を保ちながら、標準ベンチマークにおいて従来の大規模テキストから画像への拡散モデルを上回る性能を達成しました。さらに、モデルを多様な埋め込み(embedding)を用いた条件付けに適応するように学習しており、T5テキスト埋め込み、CLIPテキスト埋め込み、およびCLIP画像埋め込みを活用しています。これらの異なる埋め込みが異なる生成行動を引き起こすことを示しており、特にCLIP画像埋め込みを用いることで、参照画像のスタイルをターゲットのテキストから画像出力に直感的に転送する方法が可能になります。最後に、eDiff-Iが持つ「言葉で描く(paint-with-words)」機能を実現する手法も提示します。ユーザーは入力テキスト中の特定の単語を選択し、キャンバス上でその単語を「塗りつぶす」ことで出力画像を制御でき、望みの画像を自在に構築できる非常に便利な機能です。プロジェクトページは以下のURLで公開されています:https://deepimagination.cc/eDiff-I/