الملخص

في هذه الورقة، نقدّم نموذج PixArt-Σ، وهو نموذج لتحويل التشتت (Diffusion Transformer) قادِر على إنتاج صور بحلّة 4K مباشرة. يُعدّ PixArt-Σ تقدّمًا كبيرًا مقارنةً بنسخة سابقة له تُدعى PixArt-α، حيث يُقدّم صورًا ذات جودة أعلى بشكل ملحوظ، وتماشيًا أفضل مع المُدخلات النصية. إحدى السمات البارزة في PixArt-Σ هي كفاءته في التدريب. من خلال الاستفادة من التدريب الأساسي المسبق لـ PixArt-α، يتطور النموذج من نموذج "ضعيف" إلى نموذج "قوي" من خلال دمج بيانات ذات جودة أعلى، وهي عملية نُسمّيها "التدريب من الضعيف إلى القوي". تتمحور التحسينات في PixArt-Σ حول جوانب اثنين: (1) بيانات تدريب عالية الجودة: يُدمج في PixArt-Σ بيانات صور ذات جودة متفوّقة، مصحوبة بوصف دقيق وتفصيلي للصور. (2) ضغط فعّال للعناصر (Tokens): نُقدّم وحدة انتباه جديدة ضمن إطار DiT تقوم بضغط كل من "المفاتيح" و"القيم"، مما يُحسّن الكفاءة بشكل كبير ويسهّل إنتاج صور بحلّة فائقة الارتفاع. بفضل هذه التحسينات، يحقّق PixArt-Σ جودة صور متفوّقة وقدرة استجابة ممتازة للمدخلات النصية، مع حجم نموذج أصغر بكثير مقارنةً بالنماذج الحالية لتحويل النص إلى صورة باستخدام التشتت، مثل SDXL (2.6B معلمة) وSD Cascade (5.1B معلمة)، حيث يبلغ حجم PixArt-Σ 0.6B معلمة فقط. علاوةً على ذلك، تُمكّن قدرة PixArt-Σ على إنتاج صور بحلّة 4K من إنشاء لوحات دعائية وخلفيات عالية الدقة، مما يعزّز بكفاءة إنتاج محتوى بصري عالي الجودة في قطاعات مثل السينما والألعاب.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

PixArt-Σ: التدريب من الضعيف إلى القوي لمحول التمايز لإنجاز توليد الصور من النص بدقة 4K

Junsong Chen Chongjian Ge Enze Xie Yue Wu Lewei Yao Xiaozhe Ren Zhongdao Wang Ping Luo Huchuan Lu Zhenguo Li

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

PixArt-Σ: التدريب من الضعيف إلى القوي لمحول التمايز لإنجاز توليد الصور من النص بدقة 4K

Junsong Chen Chongjian Ge Enze Xie Yue Wu Lewei Yao Xiaozhe Ren Zhongdao Wang Ping Luo Huchuan Lu Zhenguo Li

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

PixArt-Σ: التدريب من الضعيف إلى القوي لمحول التمايز لإنجاز توليد الصور من النص بدقة 4K

Junsong Chen Chongjian Ge Enze Xie Yue Wu Lewei Yao Xiaozhe Ren Zhongdao Wang Ping Luo Huchuan Lu Zhenguo Li

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters