HyperAIHyperAI
منذ 17 أيام

توسيع نطاق نماذج GAN لتصنيع الصور من النص

Minguk Kang, Jun-Yan Zhu, Richard Zhang, Jaesik Park, Eli Shechtman, Sylvain Paris, Taesung Park
توسيع نطاق نماذج GAN لتصنيع الصور من النص
الملخص

لقد أحدثت النجاح الأخير في توليد الصور من النص تأثيرًا كبيرًا على العالم وأثارت خيال الجمهور العام. من الناحية الفنية، مثلت هذه التطورات تغيرًا جذريًا في الهيكل المُفضّل لتصميم نماذج الصور التوليدية. كانت نماذج GAN هي الخيار الافتراضي سابقًا، مع تقنيات مثل StyleGAN. لكن مع ظهور DALL-E 2، أصبحت النماذج التكرارية (auto-regressive) والمنشطة بالانتشار (diffusion) المعيار الجديد لتصنيع النماذج التوليدية على نطاق واسع في لحظة واحدة. ويطرح هذا التحول السريع سؤالًا جوهريًا: هل يمكننا توسيع نطاق GANs للاستفادة من مجموعات بيانات ضخمة مثل LAION؟ وجدنا أن زيادة القدرة على الهيكل المعماري لـ StyleGAN بشكل مباشر تؤدي بسرعة إلى عدم الاستقرار. ولذلك نقدّم GigaGAN، وهي بنية جديدة لنموذج GAN تتجاوز بكثير هذه الحدود، مُثبتةً أن نماذج GAN تظل خيارًا عمليًا لتصنيع الصور من النص. يتميّز GigaGAN بثلاثة مزايا رئيسية. أولاً، فهو أسرع بعشرات المرات في مرحلة الاستنتاج، حيث يستغرق فقط 0.13 ثانية لإنتاج صورة بحجم 512 بكسل. ثانيًا، يمكنه توليد صور عالية الدقة، مثل صورة بحجم 16 مليون بكسل في غضون 3.66 ثانية. وأخيرًا، يدعم GigaGAN تطبيقات متعددة في تحرير الفضاء الخفي، مثل التداخل الخفي (latent interpolation)، وخلط الأنماط (style mixing)، وعمليات الحساب المتجهي (vector arithmetic operations).