2달 전

LAFITE: 텍스트-이미지 생성을 위한 언어 독립적 훈련 방향성 연구

Yufan Zhou; Ruiyi Zhang; Changyou Chen; Chunyuan Li; Chris Tensmeyer; Tong Yu; Jiuxiang Gu; Jinhui Xu; Tong Sun
LAFITE: 텍스트-이미지 생성을 위한 언어 독립적 훈련 방향성 연구
초록

텍스트-이미지 생성 모델을 훈련하는 주요 과제 중 하나는 고품질의 대규모 이미지-텍스트 쌍이 필요하다는 점입니다. 이미지 샘플은 종종 쉽게 접근할 수 있지만, 연관된 텍스트 설명은 일반적으로 세심한 인간의 캡셔닝이 필요하여 특히 시간과 비용이 많이 들습니다. 본 논문에서는 어떠한 텍스트 데이터도 사용하지 않고 텍스트-이미지 생성 모델을 훈련하는 첫 번째 연구를 제안합니다. 우리의 방법은 강력한事前訓練된 CLIP 모델의 잘 정렬된 다중 모드 의미 공간을 활용합니다: 이미지 특징으로부터 텍스트 특징을 생성함으로써 텍스트 조건부 요구 사항이 원활하게 완화됩니다. 광범위한 실험을 통해 제안된 방법의 효과성을 입증하였습니다. 우리는 표준적인 텍스트-이미지 생성 작업에서 최고 수준의 결과를 얻었습니다. 특히, 제안된 언어 정보가 없는 모델은 완전한 이미지-텍스트 쌍으로 훈련된 대부분의 기존 모델보다 우수한 성능을 보였습니다. 또한, 우리의 방법은 사전 학습된 모델의 미세 조정(fine-tuning)에 적용될 수 있어, 텍스트-이미지 생성 모델을 훈련하는 데 필요한 시간과 비용을 절약할 수 있습니다. 우리 사전 학습된 모델은 최근 제안된 큰 DALL-E 모델에 비해 약 1%의 모델 크기와 학습 데이터 크기로 MS-COCO 데이터셋에서 제로샷(zero-shot) 텍스트-이미지 생성에서 경쟁력 있는 결과를 얻었습니다.注:在上述翻译中,“事前訓練”应为“사전 학습”。以下是修正后的版本:텍스트-이미지 생성 모델을 훈련하는 주요 과제 중 하나는 고품질의 대규모 이미지-텍스트 쌍이 필요하다는 점입니다. 이미지 샘플은 종종 쉽게 접근할 수 있지만, 연관된 텍스트 설명은 일반적으로 세심한 인간의 캡셔닝이 필요하여 특히 시간과 비용이 많이 들습니다. 본 논문에서는 어떠한 텍스트 데이터도 사용하지 않고 텍스트-이미지 생성 모델을 훈련하는 첫 번째 연구를 제안합니다. 우리의 방법은 강력한 사전 학습된 CLIP 모델의 잘 정렬된 다중 모드 의미 공간을 활용합니다: 이미지 특징으로부터 텍스트 특징을 생성함으로써 텍스트 조건부 요구 사항이 원활하게 완화됩니다. 광범위한 실험을 통해 제안된 방법의 효과성을 입증하였습니다. 우리는 표준적인 텍스트-이미지 생성 작업에서 최고 수준의 결과를 얻었습니다. 특히, 제안된 언어 정보가 없는 모델은 완전한 이미지-텍스트 쌍으로 훈련된 대부분의 기존 모델보다 우수한 성능을 보였습니다. 또한, 우리의 방법은 사전 학습된 모델의 미세 조정(fine-tuning)에 적용될 수 있어, 텍스트-이미지 생성 모델을 훈련하는 데 필요한 시간과 비용을 절약할 수 있습니다. 우리 사전 학습된 모델은 최근 제안된 큰 DALL-E 모델에 비해 약 1%의 모델 크기와 학습 데이터 크기로 MS-COCO 데이터셋에서 제로샷(zero-shot) 텍스트-이미지 생성에서 경쟁력 있는 결과를 얻었습니다.