HyperAIHyperAI
منذ 17 أيام

PixArt-Σ: التدريب من الضعيف إلى القوي لمحول التمايز لإنجاز توليد الصور من النص بدقة 4K

Junsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li
PixArt-Σ: التدريب من الضعيف إلى القوي لمحول التمايز لإنجاز توليد الصور من النص بدقة 4K
الملخص

في هذه الورقة، نقدّم نموذج PixArt-Σ، وهو نموذج لتحويل التشتت (Diffusion Transformer) قادِر على إنتاج صور بحلّة 4K مباشرة. يُعدّ PixArt-Σ تقدّمًا كبيرًا مقارنةً بنسخة سابقة له تُدعى PixArt-α، حيث يُقدّم صورًا ذات جودة أعلى بشكل ملحوظ، وتماشيًا أفضل مع المُدخلات النصية. إحدى السمات البارزة في PixArt-Σ هي كفاءته في التدريب. من خلال الاستفادة من التدريب الأساسي المسبق لـ PixArt-α، يتطور النموذج من نموذج "ضعيف" إلى نموذج "قوي" من خلال دمج بيانات ذات جودة أعلى، وهي عملية نُسمّيها "التدريب من الضعيف إلى القوي". تتمحور التحسينات في PixArt-Σ حول جوانب اثنين: (1) بيانات تدريب عالية الجودة: يُدمج في PixArt-Σ بيانات صور ذات جودة متفوّقة، مصحوبة بوصف دقيق وتفصيلي للصور. (2) ضغط فعّال للعناصر (Tokens): نُقدّم وحدة انتباه جديدة ضمن إطار DiT تقوم بضغط كل من "المفاتيح" و"القيم"، مما يُحسّن الكفاءة بشكل كبير ويسهّل إنتاج صور بحلّة فائقة الارتفاع. بفضل هذه التحسينات، يحقّق PixArt-Σ جودة صور متفوّقة وقدرة استجابة ممتازة للمدخلات النصية، مع حجم نموذج أصغر بكثير مقارنةً بالنماذج الحالية لتحويل النص إلى صورة باستخدام التشتت، مثل SDXL (2.6B معلمة) وSD Cascade (5.1B معلمة)، حيث يبلغ حجم PixArt-Σ 0.6B معلمة فقط. علاوةً على ذلك، تُمكّن قدرة PixArt-Σ على إنتاج صور بحلّة 4K من إنشاء لوحات دعائية وخلفيات عالية الدقة، مما يعزّز بكفاءة إنتاج محتوى بصري عالي الجودة في قطاعات مثل السينما والألعاب.

PixArt-Σ: التدريب من الضعيف إلى القوي لمحول التمايز لإنجاز توليد الصور من النص بدقة 4K | أحدث الأوراق البحثية | HyperAI