PixArt-Σ: 4K 텍스트-이미지 생성을 위한 확산 트랜스포머의 약한 학습에서 강한 학습으로의 전이

본 논문에서는 4K 해상도의 이미지를 직접 생성할 수 있는 Diffusion Transformer 모델인 PixArt-Σ을 소개한다. PixArt-Σ는 이전 버전인 PixArt-α에 비해 상당한 기술적 진보를 이뤘으며, 훨씬 높은 품질의 이미지와 텍스트 프롬프트와의 더 나은 일치도를 제공한다. PixArt-Σ의 주요 특징은 훈련 효율성이다. PixArt-α의 기초 사전 훈련을 바탕으로, 더 고품질의 데이터를 통합함으로써 ‘약한’ 기준 모델에서 ‘강한’ 모델로 진화하는 과정을 거치며, 이를 우리는 ‘약한 모델에서 강한 모델로의 훈련(weak-to-strong training)’이라 명명한다. PixArt-Σ의 발전은 두 가지 측면에서 이루어진다. (1) 고품질 훈련 데이터: PixArt-Σ는 더 높은 품질의 이미지 데이터와 더 정밀하고 구체적인 이미지 설명 문장을 함께 활용한다. (2) 효율적인 토큰 압축: 우리는 DiT 아키텍처 내에 새로운 어텐션 모듈을 제안하여 키(key)와 값(value)을 동시에 압축함으로써 훈련 및 추론 효율성을 크게 향상시키고, 초고해상도 이미지 생성을 가능하게 한다. 이러한 개선 덕분에 PixArt-Σ는 기존의 텍스트-이미지 디퓨전 모델들인 SDXL(2.6B 파라미터), SD Cascade(5.1B 파라미터)에 비해 훨씬 작지만(0.6B 파라미터), 이미지 품질과 사용자 프롬프트에 대한 적합성 측면에서 뛰어난 성능을 달성한다. 또한 PixArt-Σ가 4K 이미지를 생성할 수 있다는 점은 영화 및 게임 산업을 포함한 다양한 분야에서 고해상도 포스터나 배경화면 생성을 효율적으로 지원함으로써 고품질 시각 콘텐츠 생산을 크게 촉진할 수 있다.