Qwen-Image 기술 보고서

우리는 복잡한 텍스트 렌더링과 정밀한 이미지 편집 측면에서 큰 진전을 이룬 Qwen 시리즈의 이미지 생성 기초 모델인 Qwen-Image를 소개한다. 복잡한 텍스트 렌더링의 과제를 해결하기 위해, 대규모 데이터 수집, 필터링, 주석 처리, 합성 및 균형 조정을 포함하는 종합적인 데이터 파이프라인을 설계하였다. 또한, 비텍스트에서 시작하여 단순한 텍스트 입력에서 복잡한 텍스트 입력으로 점진적으로 진화하고, 최종적으로 문단 수준의 설명까지 확장되는 점진적 학습 전략을 채택하였다. 이 교육 과정 학습 방식은 모델의 기본 텍스트 렌더링 능력을 크게 향상시켰다. 그 결과, Qwen-Image는 영어와 같은 알파벳 언어에서 뛰어난 성능을 발휘할 뿐만 아니라, 중국어와 같은 더 도전적인 로고그래픽 언어에서도 놀라운 성과를 달성하였다. 이미지 편집의 일관성을 강화하기 위해, 기존의 텍스트-이미지(T2I) 및 텍스트-이미지-이미지(TI2I) 작업 외에도 이미지-이미지(I2I) 재구성 작업을 포함하는 개선된 다중 작업 학습 패러다임을 도입하여, Qwen2.5-VL과 MMDiT 간의 잠재 표현을 효과적으로 정렬하였다. 또한, 원본 이미지를 Qwen2.5-VL과 VAE 인코더에 별도로 입력함으로써 각각 의미적 표현과 재구성 표현을 얻는 이중 인코딩 기법을 활용하였다. 이러한 이중 인코딩 구조는 편집 모듈이 의미 일관성 유지와 시각적 정밀도 유지 사이에서 균형을 잘 잡을 수 있도록 하였다. Qwen-Image는 다양한 벤치마크에서 최신 기술 수준(SOTA)의 성능을 달성하며, 이미지 생성 및 편집 능력 측면에서 강력한 실력을 입증하였다.