17일 전

PixArt-Σ: 4K 텍스트-이미지 생성을 위한 확산 트랜스포머의 약한 학습에서 강한 학습으로의 전이

Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li
PixArt-Σ: 4K 텍스트-이미지 생성을 위한 확산 트랜스포머의 약한 학습에서 강한 학습으로의 전이
초록

본 논문에서는 4K 해상도의 이미지를 직접 생성할 수 있는 Diffusion Transformer 모델인 PixArt-Σ을 소개한다. PixArt-Σ는 이전 버전인 PixArt-α에 비해 상당한 기술적 진보를 이뤘으며, 훨씬 높은 품질의 이미지와 텍스트 프롬프트와의 더 나은 일치도를 제공한다. PixArt-Σ의 주요 특징은 훈련 효율성이다. PixArt-α의 기초 사전 훈련을 바탕으로, 더 고품질의 데이터를 통합함으로써 ‘약한’ 기준 모델에서 ‘강한’ 모델로 진화하는 과정을 거치며, 이를 우리는 ‘약한 모델에서 강한 모델로의 훈련(weak-to-strong training)’이라 명명한다. PixArt-Σ의 발전은 두 가지 측면에서 이루어진다. (1) 고품질 훈련 데이터: PixArt-Σ는 더 높은 품질의 이미지 데이터와 더 정밀하고 구체적인 이미지 설명 문장을 함께 활용한다. (2) 효율적인 토큰 압축: 우리는 DiT 아키텍처 내에 새로운 어텐션 모듈을 제안하여 키(key)와 값(value)을 동시에 압축함으로써 훈련 및 추론 효율성을 크게 향상시키고, 초고해상도 이미지 생성을 가능하게 한다. 이러한 개선 덕분에 PixArt-Σ는 기존의 텍스트-이미지 디퓨전 모델들인 SDXL(2.6B 파라미터), SD Cascade(5.1B 파라미터)에 비해 훨씬 작지만(0.6B 파라미터), 이미지 품질과 사용자 프롬프트에 대한 적합성 측면에서 뛰어난 성능을 달성한다. 또한 PixArt-Σ가 4K 이미지를 생성할 수 있다는 점은 영화 및 게임 산업을 포함한 다양한 분야에서 고해상도 포스터나 배경화면 생성을 효율적으로 지원함으로써 고품질 시각 콘텐츠 생산을 크게 촉진할 수 있다.

PixArt-Σ: 4K 텍스트-이미지 생성을 위한 확산 트랜스포머의 약한 학습에서 강한 학습으로의 전이 | 최신 연구 논문 | HyperAI초신경