2달 전

CLIP 라테ント를 활용한 계층적 텍스트 조건부 이미지 생성

Aditya Ramesh; Prafulla Dhariwal; Alex Nichol; Casey Chu; Mark Chen
CLIP 라테ント를 활용한 계층적 텍스트 조건부 이미지 생성
초록

대조 모델인 CLIP과 같은 모델들은 이미지의 의미와 스타일을 모두 포착하는 견고한 표현을 학습할 수 있음을 보여주었습니다. 이러한 표현을 이미지 생성에 활용하기 위해, 우리는 두 단계 모델을 제안합니다: 텍스트 캡션을 주어졌을 때 CLIP 이미지 임베딩을 생성하는 사전 모델(prior)과, 이미지 임베딩에 조건부로 이미지를 생성하는 디코더입니다. 우리는 명시적으로 이미지 표현을 생성함으로써 사진적 사실성과 캡션 유사성을 최소한으로 손실하면서 이미지 다양성을 개선할 수 있음을 보여줍니다. 또한, 우리의 이미지 표현에 조건부로 작동하는 디코더는 비필수적인 세부 정보가 포함되지 않은 상태에서 이미지의 의미와 스타일을 유지하면서 다양한 변형을 생성할 수 있습니다. 더욱이, CLIP의 공동 임베딩 공간은 제로샷 방식으로 언어 지도를 받은 이미지 조작이 가능하게 합니다. 우리는 디코더에 확산 모델(diffusion models)을 사용하고, 사전 모델에는 자기회귀(autoregressive) 모델과 확산 모델 모두를 실험하여 후자가 계산적으로 더 효율적이며 더 높은 품질의 샘플을 생성한다는 것을 확인했습니다.