HyperAIHyperAI
منذ 12 أيام

تقرير فني لـ Qwen-Image

Chenfei Wu, Jiahao Li, Jingren Zhou, Junyang Lin, Kaiyuan Gao, Kun Yan, Sheng-ming Yin, Shuai Bai, Xiao Xu, Yilei Chen, Yuxiang Chen, Zecheng Tang, Zekai Zhang, Zhengyi Wang, An Yang, Bowen Yu, Chen Cheng, Dayiheng Liu, Deqing Li, Hang Zhang, Hao Meng, Hu Wei, Jingyuan Ni, Kai Chen, Kuan Cao, Liang Peng, Lin Qu, Minggang Wu, Peng Wang, Shuting Yu, Tingkun Wen, Wensen Feng, Xiaoxiao Xu, Yi Wang, Yichang Zhang, Yongqiang Zhu, Yujia Wu, Yuxuan Cai, Zenan Liu
تقرير فني لـ Qwen-Image
الملخص

نقدّم نموذج Qwen-Image، وهو نموذج أساسي لإنشاء الصور ضمن سلسلة Qwen، يحقق تقدّمًا كبيرًا في عرض النصوص المعقدة وتحرير الصور بدقة. وللتغلب على التحديات المرتبطة بعرض النصوص المعقدة، صممنا مسارًا بيانات شاملًا يتضمّن جمع بيانات على نطاق واسع، وتصفية البيانات، وتوثيقها، وتركيبها، وموازنتها. علاوةً على ذلك، اعتمدنا استراتيجية تدريب تدريجية تبدأ بتحويل النصوص غير النصية إلى نصوص، ثم تنتقل من المدخلات النصية البسيطة إلى المدخلات المعقدة، وتتوسع تدريجيًا لتشمل وصفًا على مستوى الفقرة. إن نهج التعلّم بالمنهاج (Curriculum Learning) هذا يعزّز بشكل كبير من قدرة النموذج الأصلية على معالجة النصوص. وبذلك، لا يُظهر Qwen-Image أداءً متميزًا فقط في اللغات الأبجدية مثل الإنجليزية، بل يحقّق تقدّمًا ملحوظًا أيضًا في اللغات الصورية الصعبة مثل اللغة الصينية. ولتحسين اتساق تحرير الصور، قمنا بدمج منهج تدريب متعدد المهام محسّن، يشمل ليس فقط المهام التقليدية لتحويل النص إلى صورة (T2I) وتحويل النص والصورة إلى صورة (TI2I)، بل أيضًا مهمة إعادة بناء الصورة من الصورة (I2I)، مما يُسهم في تحقيق محاذاة فعّالة بين التمثيلات الخفية لنموذج Qwen2.5-VL ونموذج MMDiT. علاوةً على ذلك، قمنا بتغذية الصورة الأصلية بشكل منفصل إلى Qwen2.5-VL ومشفر VAE للحصول على تمثيلات دلالية وتمثيلات قابلة لإعادة البناء، على التوالي. إن آلية التشفير المزدوجة هذه تمكّن وحدة التحرير من تحقيق توازن دقيق بين الحفاظ على الاتساق الدلالي وضمان الولادة البصرية. ويُظهر Qwen-Image أداءً من الدرجة الأولى، ما يدل على قدراته القوية في إنشاء الصور وتحريرها عبر مجموعة متنوعة من المعايير المعيارية.