
텍스트에서 고정밀도의 복잡한 이미지를 합성하는 것은 도전적인 과제이다. 대규모 사전 학습 기반의 순차적 생성(autoregressive) 및 확산(diffusion) 모델은 사진처럼 사실적인 이미지를 생성할 수 있다. 이러한 대규모 모델들은 뚜렷한 성과를 보였지만, 여전히 세 가지 한계가 존재한다. 첫째, 우수한 성능을 달성하기 위해 막대한 학습 데이터와 파라미터를 필요로 한다. 둘째, 다단계 생성 설계로 인해 이미지 합성 속도가 크게 저하된다. 셋째, 생성된 시각적 특징의 조절이 어렵고, 정교한 프롬프트 설계가 필요하다. 고품질, 고효율, 고속, 제어 가능한 텍스트-이미지 합성을 가능하게 하기 위해, 본 연구에서는 생성적 적대 기반 CLIP 모델, 즉 GALIP(Generative Adversarial CLIPs)을 제안한다. GALIP는 디스크리미네이터와 생성기 모두에서 강력한 사전 학습된 CLIP 모델을 활용한다. 구체적으로, CLIP 기반의 디스크리미네이터를 제안하며, CLIP의 복잡한 장면 이해 능력은 이미지 품질을 정확히 평가할 수 있게 한다. 또한, 브리지 특징과 프롬프트를 통해 CLIP에서 시각적 개념을 유도하는 CLIP 기반 생성기를 제안한다. CLIP 통합형 생성기와 디스크리미네이터는 학습 효율성을 높이며, 그 결과 본 모델은 대규모 사전 학습된 순차적 생성 및 확산 모델과 비슷한 성능을 달성하면서도 약 3%의 학습 데이터와 6%의 학습 가능한 파라미터만을 필요로 한다. 더불어, 본 모델은 합성 속도가 120배 빠르며, GAN의 부드러운 잠재 공간을 계승한다. 광범위한 실험 결과는 GALIP의 뛰어난 성능을 입증한다. 코드는 https://github.com/tobran/GALIP 에서 제공된다.