17일 전

Swinv2-Imagen: 텍스트-이미지 생성을 위한 계층적 비전 트랜스포머 확산 모델

Ruijun Li, Weihua Li, Yi Yang, Hanyu Wei, Jianhua Jiang, Quan Bai
Swinv2-Imagen: 텍스트-이미지 생성을 위한 계층적 비전 트랜스포머 확산 모델
초록

최근 여러 연구에서 확산 모델(diffusion models)이 텍스트-to-이미지 합성 작업에서 뛰어난 성능을 보임이 입증되면서, 이미지 생성 분야에 새로운 연구 기회를 열었다. 구글(Google)의 Imagen도 이러한 연구 추세를 따르며, 텍스트-to-이미지 생성 분야에서 DALL-E 2를 능가하는 최고의 모델로 평가받고 있다. 그러나 Imagen는 텍스트 처리에 단순히 T5 언어 모델을 사용할 뿐이며, 이는 텍스트의 의미 정보를 충분히 학습하지 못할 수 있음을 의미한다. 또한 Imagen가 활용하는 효율적인 UNet 구조는 이미지 처리 측면에서 최적의 선택이라고 할 수 없다. 이러한 문제점을 해결하기 위해 본 연구에서는 계층적 시각 변환기(Hierarchical Visual Transformer)와 의미적 레이아웃을 반영한 장면 그래프(Scene Graph)를 기반으로 한 새로운 텍스트-to-이미지 확산 모델인 Swinv2-Imagen을 제안한다. 제안된 모델에서는 개체(entity)와 관계(relationship)의 특징 벡터를 추출하여 확산 모델에 통합함으로써, 생성된 이미지의 품질을 효과적으로 향상시킨다. 또한 CNN 컨볼루션 연산에 기인한 문제를 해결할 수 있는 스위н-트랜스포머 기반의 UNet 아키텍처인 Swinv2-Unet을 도입하였다. 제안된 모델의 성능을 검증하기 위해 MSCOCO, CUB, MM-CelebA-HQ 세 가지 실세계 데이터셋을 활용하여 광범위한 실험을 수행하였다. 실험 결과, 제안된 Swinv2-Imagen 모델이 여러 주목할 만한 최신 기술들보다 우수한 성능을 보였다.