17일 전

Muse: 마스크된 생성형 트랜스포머를 통한 텍스트-to-이미지 생성

Huiwen Chang, Han Zhang, Jarred Barber, AJ Maschinot, Jose Lezama, Lu Jiang, Ming-Hsuan Yang, Kevin Murphy, William T. Freeman, Michael Rubinstein, Yuanzhen Li, Dilip Krishnan
Muse: 마스크된 생성형 트랜스포머를 통한 텍스트-to-이미지 생성
초록

우리는 텍스트에서 이미지를 생성하는 Transformer 기반 모델인 Muse를 소개한다. 이 모델은 확산 모델이나 자동 회귀 모델보다 훨씬 더 효율적이면서도 최신 기술 수준(SOTA)의 이미지 생성 성능을 달성한다. Muse는 사전 훈련된 대규모 언어 모델(LLM)에서 추출한 텍스트 임베딩을 기반으로, 이산 토큰 공간에서 마스킹된 이미지 토큰을 예측하는 마스킹 모델링 작업을 통해 훈련된다. 픽셀 공간 확산 모델인 Imagen 및 DALL-E 2와 비교할 때, Muse는 이산 토큰을 사용하고 샘플링 반복 횟수가 적기 때문에 훨씬 더 효율적이다. 또한 Parti와 같은 자동 회귀 모델과 비교했을 때, 병렬 디코딩을 활용함으로써 더 높은 효율성을 보인다. 사전 훈련된 LLM을 활용함으로써, Muse는 세밀한 언어 이해 능력을 갖추게 되어, 물체, 공간적 관계, 자세, 개수 등 시각적 개념을 정확히 이해하고 고해상도 이미지를 생성할 수 있다. 9억 파라미터 규모의 Muse 모델은 CC3M 데이터셋에서 새로운 SOTA 성능을 기록하며, FID 점수 6.06을 달성했다. 30억 파라미터 규모의 Muse 3B 모델은 제로샷(Zero-shot) COCO 평가에서 FID 점수 7.88과 CLIP 점수 0.32를 기록했다. 또한 Muse는 모델의 미세 조정(fine-tuning)이나 역전환(inversion) 없이도 직접 다양한 이미지 편집 응용을 가능하게 한다: 인페인팅(inpainting), 아웃페인팅(outpainting), 마스크 없는 편집(mask-free editing) 등. 자세한 결과는 다음 웹사이트에서 확인할 수 있다. https://muse-model.github.io

Muse: 마스크된 생성형 트랜스포머를 통한 텍스트-to-이미지 생성 | 최신 연구 논문 | HyperAI초신경