심층적 언어 이해를 갖춘 사진처럼 사실적인 텍스트-이미지 디퓨전 모델

우리는 텍스트에서 이미지를 생성하는 확산 모델인 'Imagen'을 소개합니다. 이 모델은 기존의 어떤 모델보다도 높은 수준의 사실감과 깊이 있는 언어 이해 능력을 갖추고 있습니다. Imagen은 텍스트를 이해하는 데 강력한 대규모 트랜스포머 기반 언어 모델의 능력에 기반하고 있으며, 고해상도 이미지 생성에 강점을 지닌 확산 모델의 힘을 활용합니다. 우리의 주요 발견은, 단일 텍스트 코퍼스로 사전 훈련된 일반적인 대규모 언어 모델(T5 등)이 이미지 합성에 있어 텍스트를 인코딩하는 데 놀라울 정도로 효과적이라는 점입니다. Imagen에서 언어 모델의 크기를 확대하면, 이미지 확산 모델의 크기를 늘리는 것보다 샘플의 정밀도와 이미지-텍스트 일치도가 훨씬 더 향상됩니다. Imagen은 COCO 데이터셋에서 7.27의 새로운 최고 수준의 FID 점수를 기록했으며, 이는 COCO 데이터셋에 대해 훈련하지 않았음에도 가능했습니다. 또한 인간 평가자들은 Imagen의 생성 결과가 COCO 데이터 자체와 비교해 이미지-텍스트 일치도 측면에서 거의 동등하다고 평가했습니다. 더 깊이 있는 텍스트-이미지 모델 평가를 위해 우리는 DrawBench라는 종합적이고 도전적인 텍스트-이미지 모델 평가 기준을 제안합니다. DrawBench를 활용해 VQ-GAN+CLIP, Latent Diffusion Models, DALL-E 2 등 최근의 주요 방법들과 비교한 결과, 인간 평가자들은 Imagen이 샘플 품질과 이미지-텍스트 일치도 측면에서 다른 모델들보다 더 선호됨을 확인했습니다. 결과 개요는 https://imagen.research.google/ 에서 확인할 수 있습니다.