4달 전

CogView: Transformer를 활용한 텍스트-이미지 생성 마스터링

Ming Ding; Zhuoyi Yang; Wenyi Hong; Wendi Zheng; Chang Zhou; Da Yin; Junyang Lin; Xu Zou; Zhou Shao; Hongxia Yang; Jie Tang

논문 세부 정보 보기

CogView: Transformer를 활용한 텍스트-이미지 생성 마스터링

초록

일반 영역에서의 텍스트-이미지 생성은 강력한 생성 모델과 다중 모달 이해가 요구되는 오랜 난제였습니다. 우리는 이 문제를 발전시키기 위해 40억 개 매개변수를 가진 Transformer와 VQ-VAE 토크나이저를 사용하는 CogView를 제안합니다. 또한 스타일 학습, 초해상도, 텍스트-이미지 순위 결정 및 패션 디자인 등 다양한 하류 작업을 위한 미세 조정 전략과, NaN 손실을 제거하는 등의 사전 학습 안정화 방법을 시연합니다. CogView는 블러 처리된 MS COCO 데이터셋에서 최신 기술(FID)을 달성하며, 이전의 GAN 기반 모델들과 최근 유사한 연구인 DALL-E를 능가합니다.