تقرير فني لـ Qwen-Image

نقدّم نموذج Qwen-Image، وهو نموذج أساسي لإنشاء الصور ضمن سلسلة Qwen، يحقق تقدّمًا كبيرًا في عرض النصوص المعقدة وتحرير الصور بدقة. وللتغلب على التحديات المرتبطة بعرض النصوص المعقدة، صممنا مسارًا بيانات شاملًا يتضمّن جمع بيانات على نطاق واسع، وتصفية البيانات، وتوثيقها، وتركيبها، وموازنتها. علاوةً على ذلك، اعتمدنا استراتيجية تدريب تدريجية تبدأ بتحويل النصوص غير النصية إلى نصوص، ثم تنتقل من المدخلات النصية البسيطة إلى المدخلات المعقدة، وتتوسع تدريجيًا لتشمل وصفًا على مستوى الفقرة. إن نهج التعلّم بالمنهاج (Curriculum Learning) هذا يعزّز بشكل كبير من قدرة النموذج الأصلية على معالجة النصوص. وبذلك، لا يُظهر Qwen-Image أداءً متميزًا فقط في اللغات الأبجدية مثل الإنجليزية، بل يحقّق تقدّمًا ملحوظًا أيضًا في اللغات الصورية الصعبة مثل اللغة الصينية. ولتحسين اتساق تحرير الصور، قمنا بدمج منهج تدريب متعدد المهام محسّن، يشمل ليس فقط المهام التقليدية لتحويل النص إلى صورة (T2I) وتحويل النص والصورة إلى صورة (TI2I)، بل أيضًا مهمة إعادة بناء الصورة من الصورة (I2I)، مما يُسهم في تحقيق محاذاة فعّالة بين التمثيلات الخفية لنموذج Qwen2.5-VL ونموذج MMDiT. علاوةً على ذلك، قمنا بتغذية الصورة الأصلية بشكل منفصل إلى Qwen2.5-VL ومشفر VAE للحصول على تمثيلات دلالية وتمثيلات قابلة لإعادة البناء، على التوالي. إن آلية التشفير المزدوجة هذه تمكّن وحدة التحرير من تحقيق توازن دقيق بين الحفاظ على الاتساق الدلالي وضمان الولادة البصرية. ويُظهر Qwen-Image أداءً من الدرجة الأولى، ما يدل على قدراته القوية في إنشاء الصور وتحريرها عبر مجموعة متنوعة من المعايير المعيارية.