HyperAIHyperAI

Command Palette

Search for a command to run...

StyleGAN-T: فتح إمكانات الشبكات التوليدية المنافسة لصنع صور من نصوص بسرعة على نطاق واسع

Axel Sauer Tero Karras Samuli Laine Andreas Geiger Timo Aila

الملخص

أظهرت محاكاة الصور من النص تقدماً كبيراً في الآونة الأخيرة بفضل النماذج اللغوية الكبيرة المُدرّبة مسبقاً، وبيانات التدريب على نطاق واسع، بالإضافة إلى ظهور عائلات نماذج قابلة للتوسع مثل نماذج الانتشار (diffusion) والنماذج التكرارية (autoregressive). ومع ذلك، تتطلب النماذج الأفضل أداءً تقييمًا تكراريًا لإنتاج عينة واحدة فقط. في المقابل، تكتفي شبكات التوليد التنافسية (GANs) بمرور واحد أمامي فقط، مما يجعلها أسرع بكثير، لكنها لا تزال تبتعد بشكل كبير عن الحد الأقصى للتقدم في مجال محاكاة الصور من النص على نطاق واسع. يهدف هذا البحث إلى تحديد الخطوات الضرورية لإعادة استعادة القدرة التنافسية. ويُقدّم نموذجنا، StyleGAN-T، حلولاً تلبي المتطلبات الخاصة بمحاكاة الصور من النص على نطاق واسع، مثل السعة الكبيرة، والتدريب المستقر على مجموعات بيانات متنوعة، والتماشي القوي مع النص، والقدرة على التحكم في التوازن بين التباين والتماشي مع النص. ويُظهر StyleGAN-T تحسناً ملحوظاً مقارنة بالنماذج السابقة من نوع GAN، ويتفوق في جودة العينات والسرعة على نماذج الانتشار المُختزلة (distilled diffusion)، التي كانت تمثل الحد الأقصى للتقدم السابق في محاكاة الصور من النص السريعة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp