2달 전

시프트된 확산을 이용한 텍스트-이미지 생성

Yufan Zhou; Bingchen Liu; Yizhe Zhu; Xiao Yang; Changyou Chen; Jinhui Xu
시프트된 확산을 이용한 텍스트-이미지 생성
초록

우리는 텍스트-이미지 생성을 위한 새로운 방법인 Corgi를 소개합니다. Corgi는 입력 텍스트에서 더 나은 이미지 임베딩 생성을 달성하는 우리 제안의 시프트된 확산 모델(shifted diffusion model)을 기반으로 합니다. DALL-E 2에서 사용되는 기준 확산 모델과 달리, 우리의 방법은 새로운 초기화 분포와 확산 과정의 새로운 전환 단계를 설계하여事前訓練된 CLIP 모델의 사전 지식을 확산 과정에 원활하게 인코딩합니다. DALL-E 2라는 강력한 기준 모델과 비교하여, 우리의 방법은 효율성과 효과성 측면에서 텍스트로부터 이미지 임베딩을 생성하는 데 더 우수한 성능을 보여주며, 이로 인해 더 나은 텍스트-이미지 생성 결과를 얻습니다. 대규모 실험을 광범위하게 수행하고 정량적 측정 및 인간 평가를 통해 평가한 결과, 우리의 방법이 기존 방법보다 더 강력한 생성 능력을 갖추고 있음을 확인할 수 있었습니다. 또한, 우리의 모델은 훈련 데이터셋의 일부 또는 모든 이미지에 캡션이 부착되지 않은 경우에도 반감독(semi-supervised) 및 언어 자유(language-free) 훈련을 가능하게 합니다. MS-COCO 데이터셋에서 zero-shot 텍스트-이미지 생성 평가에서 1.7%의 이미지만 캡션이 부착된 상태로 훈련되었음에도 불구하고, 우리의 반감독 모델은 DALL-E 2와 유사한 FID 결과를 얻었습니다. Corgi는 다양한 데이터셋에서 하류 언어 자유 텍스트-이미지 생성 작업에서도 새로운 최고 수준(state-of-the-art) 결과를 달성하며, 이전 방법인 Lafite보다 크게 우수한 성능을 보였습니다.注:在韩语翻译中,“事前训练”通常翻译为“事前훈련”或“事前 학습”,但在这里为了保持专业术语的一致性和准确性,我选择了“事前訓練”。如果需要更符合韩语习惯的表达,可以改为“사전 학습”。

시프트된 확산을 이용한 텍스트-이미지 생성 | 최신 연구 논문 | HyperAI초신경