PixArt-Σ: التدريب من الضعيف إلى القوي لمحول التمايز لإنجاز توليد الصور من النص بدقة 4K

في هذه الورقة، نقدّم نموذج PixArt-Σ، وهو نموذج لتحويل التشتت (Diffusion Transformer) قادِر على إنتاج صور بحلّة 4K مباشرة. يُعدّ PixArt-Σ تقدّمًا كبيرًا مقارنةً بنسخة سابقة له تُدعى PixArt-α، حيث يُقدّم صورًا ذات جودة أعلى بشكل ملحوظ، وتماشيًا أفضل مع المُدخلات النصية. إحدى السمات البارزة في PixArt-Σ هي كفاءته في التدريب. من خلال الاستفادة من التدريب الأساسي المسبق لـ PixArt-α، يتطور النموذج من نموذج "ضعيف" إلى نموذج "قوي" من خلال دمج بيانات ذات جودة أعلى، وهي عملية نُسمّيها "التدريب من الضعيف إلى القوي". تتمحور التحسينات في PixArt-Σ حول جوانب اثنين: (1) بيانات تدريب عالية الجودة: يُدمج في PixArt-Σ بيانات صور ذات جودة متفوّقة، مصحوبة بوصف دقيق وتفصيلي للصور. (2) ضغط فعّال للعناصر (Tokens): نُقدّم وحدة انتباه جديدة ضمن إطار DiT تقوم بضغط كل من "المفاتيح" و"القيم"، مما يُحسّن الكفاءة بشكل كبير ويسهّل إنتاج صور بحلّة فائقة الارتفاع. بفضل هذه التحسينات، يحقّق PixArt-Σ جودة صور متفوّقة وقدرة استجابة ممتازة للمدخلات النصية، مع حجم نموذج أصغر بكثير مقارنةً بالنماذج الحالية لتحويل النص إلى صورة باستخدام التشتت، مثل SDXL (2.6B معلمة) وSD Cascade (5.1B معلمة)، حيث يبلغ حجم PixArt-Σ 0.6B معلمة فقط. علاوةً على ذلك، تُمكّن قدرة PixArt-Σ على إنتاج صور بحلّة 4K من إنشاء لوحات دعائية وخلفيات عالية الدقة، مما يعزّز بكفاءة إنتاج محتوى بصري عالي الجودة في قطاعات مثل السينما والألعاب.