
我々は、類を見ないほどの写真のようにリアルな画像生成能力と、深層的な言語理解能力を備えたテキストから画像を生成する拡散モデル「Imagen」を紹介する。Imagenは、大規模なトランスフォーマー型言語モデルのテキスト理解力の強みと、高精細な画像生成に優れる拡散モデルの力を組み合わせることで構築されている。本研究の重要な発見は、単一のテキストコーパスで事前学習された汎用的大規模言語モデル(例:T5)が、画像合成のためのテキストエンコーディングにおいて、驚くほど効果的であるということである。Imagenにおいて、言語モデルの規模を拡大することは、画像拡散モデルの規模を拡大するよりも、生成画像の忠実度(sample fidelity)およびテキストと画像の整合性(image-text alignment)の向上にはるかに大きな効果をもたらす。Imagenは、COCOデータセットにおいて、COCOデータに一度も学習していない状態で、新たな最先端のFIDスコア7.27を達成し、人間の評価者による評価では、Imagenが生成する画像のテキストとの整合性がCOCOデータそのものと同等であると認められている。テキストから画像を生成するモデルをより深く評価するため、我々は「DrawBench」という包括的かつ挑戦的なベンチマークを提案する。DrawBenchを用いて、VQ-GAN+CLIP、Latent Diffusion Models、DALL-E 2といった最近の手法と比較した結果、人間の評価者による対比評価において、画像の品質およびテキストとの整合性の両面で、Imagenが他のモデルを上回ることが確認された。結果の概要については、https://imagen.research.google/ をご参照ください。