3달 전

CogView2: 계층적 Transformer를 통한 더 빠르고 우수한 텍스트-이미지 생성

Ming Ding, Wendi Zheng, Wenyi Hong, Jie Tang

초록

트랜스포머 기반의 텍스트-이미지 모델은 고해상도 이미지 생성 시 속도 저하와 구조적 복잡성으로 인해 발전이 제한되고 있다. 본 연구에서는 계층적 트랜스포머와 국소 병렬 자동 회귀 생성 기법을 기반으로 한 해결책을 제안한다. 우리는 간단하고 유연한 자기지도 학습 과제인 크로스모달 일반 언어 모델(CogLM)을 활용하여 60억 파라미터 규모의 트랜스포머를 사전 학습한 후, 고속 초해상도화를 위해 미세 조정(finetune)한다. 새로운 텍스트-이미지 시스템인 CogView2는 동시대 최신 기술인 DALL-E-2와 비교해 매우 경쟁력 있는 생성 성능을 보이며, 이미지에 대한 인터랙티브한 텍스트 기반 편집 기능도 자연스럽게 지원한다.