12일 전

Qwen-Image 기술 보고서

Chenfei Wu, Jiahao Li, Jingren Zhou, Junyang Lin, Kaiyuan Gao, Kun Yan, Sheng-ming Yin, Shuai Bai, Xiao Xu, Yilei Chen, Yuxiang Chen, Zecheng Tang, Zekai Zhang, Zhengyi Wang, An Yang, Bowen Yu, Chen Cheng, Dayiheng Liu, Deqing Li, Hang Zhang, Hao Meng, Hu Wei, Jingyuan Ni, Kai Chen, Kuan Cao, Liang Peng, Lin Qu, Minggang Wu, Peng Wang, Shuting Yu, Tingkun Wen, Wensen Feng, Xiaoxiao Xu, Yi Wang, Yichang Zhang, Yongqiang Zhu, Yujia Wu, Yuxuan Cai, Zenan Liu
Qwen-Image 기술 보고서
초록

우리는 복잡한 텍스트 렌더링과 정밀한 이미지 편집 측면에서 큰 진전을 이룬 Qwen 시리즈의 이미지 생성 기초 모델인 Qwen-Image를 소개한다. 복잡한 텍스트 렌더링의 과제를 해결하기 위해, 대규모 데이터 수집, 필터링, 주석 처리, 합성 및 균형 조정을 포함하는 종합적인 데이터 파이프라인을 설계하였다. 또한, 비텍스트에서 시작하여 단순한 텍스트 입력에서 복잡한 텍스트 입력으로 점진적으로 진화하고, 최종적으로 문단 수준의 설명까지 확장되는 점진적 학습 전략을 채택하였다. 이 교육 과정 학습 방식은 모델의 기본 텍스트 렌더링 능력을 크게 향상시켰다. 그 결과, Qwen-Image는 영어와 같은 알파벳 언어에서 뛰어난 성능을 발휘할 뿐만 아니라, 중국어와 같은 더 도전적인 로고그래픽 언어에서도 놀라운 성과를 달성하였다. 이미지 편집의 일관성을 강화하기 위해, 기존의 텍스트-이미지(T2I) 및 텍스트-이미지-이미지(TI2I) 작업 외에도 이미지-이미지(I2I) 재구성 작업을 포함하는 개선된 다중 작업 학습 패러다임을 도입하여, Qwen2.5-VL과 MMDiT 간의 잠재 표현을 효과적으로 정렬하였다. 또한, 원본 이미지를 Qwen2.5-VL과 VAE 인코더에 별도로 입력함으로써 각각 의미적 표현과 재구성 표현을 얻는 이중 인코딩 기법을 활용하였다. 이러한 이중 인코딩 구조는 편집 모듈이 의미 일관성 유지와 시각적 정밀도 유지 사이에서 균형을 잘 잡을 수 있도록 하였다. Qwen-Image는 다양한 벤치마크에서 최신 기술 수준(SOTA)의 성능을 달성하며, 이미지 생성 및 편집 능력 측면에서 강력한 실력을 입증하였다.

Qwen-Image 기술 보고서 | 최신 연구 논문 | HyperAI초신경